AI趋势周报第255期: Google DeepMind开源核融合装置模拟器TORAX

Google DeepMind用JAX框架打造一款托克马克核融合装置模拟器TORAX,目标是要精准、快速的进行前向建模、脉冲设计、轨迹优化和控制器设计。

图片来源: 

萤幕截图

重点新闻(0607~0613)

 核融合     JAX     DeepMind  

Google DeepMind打造核融合装置模拟器TORAX,还开源了

最近,Google DeepMind开源一款可微分的托卡马克(Tokamak)核心运输模拟器TORAX,采JAX框架,以Python实作。这款TORAX结合了物理模组和机器学习模型,可用来计算托卡马克核融合装置中,离子热传输、电子热传输、粒子传输和电流扩散的耦合方程式。

尤其JAX框架具有即时编译和自动微分的优势,TORAX可快速执行运算,也能实现梯度最佳化和基于Jacobi矩阵的PDE求解器。而且,JAX对类神经网路的开发和推论支援,也大幅促进了物理模型和机器学习代理的耦合。团队也以RAPTOR码来验证TORAX,证明模拟等离子分布的结果是一致的。Google DeepMind表示,TORAX提供强大、多功能的工具,可用来实现快速且准确的前向建模、脉冲设计、轨迹优化和控制器设计,目前已 Transformer     CNN     局部性  

Meta AI证实Transformer能跳脱邻近局部性框架

日前,Meta AI和阿姆斯特丹大学发表最新研究,发现Transformer模型不必按照电脑视觉模型长年遵守的邻近局部性(Locality),也能直接处理图像中的单个像素,且表现更好,虽然因序列更长、运算成本更高。

进一步来说,传统电脑视觉架构,如卷积网路(CNN)、ViT等,都假定图片中的邻近像素更相关,并透过卷积核、池化操作和图像切片等技术来计算邻近像素,也因此出现将图像分割为多个16×16的区块、将这些区块视为1个Token来计算的作法。这就是长久以来的邻近局部性基本假设。

但Meta AI和阿姆斯特丹大学以Transformer实验,将每个像素视为一个个Token来处理,摒除了图像2D网格结构的假设。他们将这种模型称为PiT,经测试,PiT在物件分类、图像生成等任务表现优异,甚至在某些领域,还大幅优于传统方法。团队表示,他们并非提倡以PiT取代ViT,而是证明Transformers透过对图片单一像素运算(而非16×16的区块),可达到非常好的表现,意味著模型能从单一像素中捕捉更多讯号。而这一发现,也挑战了电脑视觉任务必须要有局部性的传统观念。  Nvidia    HelpSteer2      LLM  

Nvidia开源HelpSteer2资料集,可低成本确保LLM与人类偏好一致

最近,Nvidia开源一款资料集HelpSteer2,可用来训练先进的奖励模型,来引导大型语言模型(LLM)产出与人类偏好一致的回答。这个资料集共有10,681组提示和回答,并由1,000多名美国注释者按Likert量表,对5种属性标注。

此团队表示,他们用HelpSteer2资料集来训练自家3,400亿参数的Nemotron-4基本模型后,在RewardBench主要资料集测试,达到了最先进的92.0%准确率,优于任何现有的开放和专有模型。而且,这个资料集才1万多个提示-回答组,比起现有的偏好资料集(如HH-RLHF)动辄数百万组,大幅降低了运算成本。 团队表示,这个资料集可用来对齐Llamna-3-70B等这类LLM,来提高与人类偏好的一致性。  PyTorch     漏洞     Huntr  

开源机器学习框架PyTorch存在重大漏洞

今年4月,有研究者向漏洞悬赏平台Huntr通报开源机器学习框架PyTorch存在重大层级漏洞CVE-2024-5480,CVSS风险评分达到10分,影响2.2.2版以前的PyTorch。对此,Huntr向通报者提供1,500美元奖励,并在日前公布细节。

这漏洞位于torch.distributed.rpc框架,开发者使用该框架执行RPC呼叫时,该框架未验证相关功能是否如开发者预期执行,因此攻击者能借机透过网路使用RPC呼叫Python功能,进而载入Python程式库并执行任意命令。这个框架通常用于分散式训练,如增强式学习、模型平行化等,因此影响范围相当广泛。研究人员也提供概念性验证(PoC)程式码,并指出该漏洞可能带来的影响:由于攻击者可将其用来远端攻击分散式训练的master节点,一旦这些节点遭到入侵,对方就有机会窃取与AI有关的敏感资料。  OpenAI     甲骨文     微软  

OpenAI采用甲骨文云端为基础架构

甲骨文和OpenAI宣布合作,OpenAI将采用甲骨文云端基础架构(OCI),来扩展微软Azure AI的基础架构,加速执行模型推论等任务。这项合作涉及OpenAI、微软Azure和甲骨文等3家业者,目的是要OCI作为类似备援方案,可从微软Azure AI扩展到甲骨文云端,来提供负载更高的处理能力。

其中,光是OpenAI的ChatGPT AI服务,每月用户数就超过1亿,是最吃运算资源的任务。这项合作是让OpenAI使用「OCI基础架构上的Azure AI平台」,来执行推论和其他作业,OpenAI最尖端的模型仍执行在与微软合作的超级电脑上。