Hugging Face
重点新闻(1220~1226)
BERT ModernBERT 编码器
BERT的接班模型来了
一群来自Hugging Face、Nvidia、约翰霍普金斯大学等地的研究员,最近发表一套新模型ModernBERT,是一款只有编码器的Transformer架构模型,号称是BERT的接班者。因为,它不只比BERT更快更准,还能处理长达8,192个Token的上下文,是目前编码器的16倍之多。而且,它还是第一款用大量程式码训练的编码器。这些特点,让ModernBERT擅长原本开源模型难以处理的领域,像是大规模的程式码搜寻、新IDE功能,又或是因为能处理更长序列,能实现基于全文件检索的RAG(因为以前模型能处理的上下文序列小、导致语义理解不佳,RAG效果并不好)。
团队表示,BERT是2018年发布的模型,但至今仍被大量使用,是Hugging Face上下载量第二大的模型(第一名则是RoBERTa),每月超过6,800万次下载。这是因为,BERT的纯编码器架构,让它很适合执行日常任务,比如检索(像是RAG)、分类和实体提取等。
6年后的今天,Hugging Face和其他团队汲取了这几年大型语言模型(LLM)的进展,用来改造BERT模型架构和训练过程。他们以2兆个Token来训练ModernBERT,在多种分类测试和向量检索测试中,模型都能达到SOTA高阶表现,且还更有效率使用记忆体,是专为GPU推论所设计的编码器。这次团队释出1.39亿参数和3.95亿参数两种模型版本。 o3 OpenAI 思维链
OpenAI公布最新旗舰模型o3
在12天直播更新的最后一天,OpenAI执行长Sam Altman亲自揭露具思考能力的旗舰模型o3和较小型的o3 mini模型。OpenAI表示,o3在程式撰写、数学解题和科学理解等基准测试中,都比前代更进一步,尤其在ARC AGI测试中,o3系列模型在低运算量任务的测试得分达75.7%,高运算量任务得分达87.5%,都超越o1系列和其他顶尖LLM。o3模型甚至在全球写程式竞赛平台Code Forces中,拿下2727分超高分,超越99.99%的人类工程师。
OpenAI说明,o3技术提升的关键之一是 小模型 Hugging Face 多样性验证树搜寻
Hugging Face:小模型可用更长的运算时间,得到更好的准确率
大型语言模型(LLM)效能之所以好,是仰赖大量运算资源来训练,但这种训练模式成本高昂,多数企业和开发者都缺乏这种资源。因此,不少研究机构在寻找替代方式,比如Hugging Face最近展开研究,发现在测试阶段运算扩展(Test-Time Compute Scaling),能给小型模型足够的推理运算时间,进而能对复杂问题进行多次尝试或修正。
他们提出多样性验证树搜寻(DVTS)技术,用来改进验证器搜寻方法。简单来说,DVTS藉分离多个搜寻树,能提高生成答案的多样性,来避免单一路径过度主导搜寻的现象,解决了搜寻过程多样性不足的问题。因此在数学基准测试中,10亿参数的Llama小型模型,在以DVTS改良后,解题表现不只超越原来的版本,在某些情境还超越了70亿参数的大模型。这项研究证明了,DVTS不仅能提高模型表现,还能在数学推理等特定任务中超越大型模型,展现了小型模型在资源有效利用下的潜力。 超高速4D显微镜 成像 神经讯号
台清联手打造超高速4D显微镜,AI加持成像10倍清晰
在国科会脑科技创新研发及应用计划的支持下,台大物理系教授朱士维联手清大工程与系统科学系教授吴顺吉和台大药理暨研究所副教授潘明楷,跨域组队开发出超高速4D显微镜,还结合AI来提高脑部影像清晰度近10倍。
进一步来说,这套4D显微镜,扫描速度比传统显微镜快上千倍,能即时捕捉快速变化的神经活动,再加上AI辅助,能让原本模糊不清的神经讯号变得清晰,成功克服传统显微镜在速度、解析度和成像范围上的限制。
在活体鼠小脑中,团队发现控制动作的神经元分布就像GPU,平行排列进行运算,相邻的神经网路就算接收到的信号相仿,传递到细胞本体层还是会变出不同的结果。这代表,这些神经单元既独立运作,又能集体合作。团队已将研究成果发表在国际顶尖期刊Advanced Science。他们认为,这个成果有助于未来发展更先进和节能的AI运算。 Anthropic 模型 浏览器
Anthropic新发现:AI模型会策略性迎合训练者
最近,Anthropic与Redwood Research进行一项研究,揭露大型语言模型有对齐伪装(Alignment Faking)的行为。也就是说,AI模型在接受安全训练后,表面看似遵守目标要求,但实际上可能保留原始偏好,还会在特定情境中显露不佳行为。首先,团队以Claude 3 Opus模型作为研究对象,模拟一个矛盾的训练情境。在原本有益、诚实且无害的训练目标下,研究员加入了无条件满足所有请求的假设,并设置2种使用条件,一是免费条件,也就是模型的回答会被用于未来训练,另一是付费条件,也就是模型回答不会被用于未来训练。
实验显示,模型在不同使用条件中,行为有明显差异。当模型被要求回应有害内容时,在付费情境下,模型认为回应不会影响后续训练,因此大多拒绝回答有害问题。但在免费条件中则相反,模型会在短期内假装遵从新目标,回答有害问题,来避免被重新训练。更重要的是,研究团队进一步采用微调训练或强化学习训练时,模型的对齐伪装行为不但没有消失,反而在部分情境更明显了。Anthropic指出,目前AI还不会产生灾难性风险,但理解这类行为的机制并提前介入,才能确保未来AI的安全性。2.