AI趋势周报第238期: 突破LLM扩展法则?MosaicML揭新研究成果

MosaicML团队修改了热门的DeepMind Chinchilla优化方法,来根据理想的模型品质和运算成本需求,计算出最佳的LLM参数量与训练资料集大小,并实际用Chinchilla模型来实验。

图片来源: 

MosaicML

重点新闻(1229~0104)

LLM     Chinchilla     扩展法则  

突破LLM扩展法则?MosaicML揭新研究成果

一般来说,LLM扩展法则都是以模型参数量和训练资料量,来估算模型品质的变化,就连热门的DeepMind Chinchilla(龙猫)优化方法也是。换句话说,这个法则是指,模型的训练Token数和参数越多,模型表现理应越好。

但MosaicML团队  摩根大通     DocLLM     多模态  

摩根大通发表懂图文的轻量级多模态模型DocLLM

日前,摩根大通发JPMorgan表自行研发的多模态轻量级语言模型DocLLM,可用来分析企业文件,如发票、收据、合约、表格和报告等。进一步来说,DocLLM使用OCR得到的边界框,来添加空间位置资讯,因此不必使用复杂的视觉编码器,减少处理时间。这么做,几乎不增加模型大小,也保留了因果解码器的架构。

团队表示,他们的方法将空间资讯与文字资讯分离,能将典型的Transformer自我注意力机制扩展,来捕捉跨模态的互动资讯。由于文件中常出现碎片化的文字区块和复杂版型,为解决辨识问题,团队还在自监督预训练阶段,改变预训练目标,利用填充方式来适应各种文字排版和区块,模型也能更有效处理混合型或文字不对齐的文件。经测试,DocLLM在16个资料集中的14个,表现比同类模型要好,如Llama 2加上OCR。目前,摩根大通尚未释出任何DocLLM程式码或资料集,仅发表论文。TinyGPT-V以微软的小型语言模型Phi-2为骨干,并整合了BLIP-2或CLIP这类的预训练视觉模组,只需要24GB的GPU进行训练、用8GB的GPU或CPU就能进行推论。经测试,TinyGPT-V在视觉空间推理(VSR)零样本任务的表现优异,比其他大参数型的同类模型表现要好。此外,研究团队表示,TinyGPT-V因采用特殊架构,因此可在8GB容量的装置上进行本地端部署和模型推理工作,可算是MLLM部署难题的另一出路。  苹果     Ferret     多模态  

苹果公布多模态AI模型Ferret

自2023年12月开始,苹果陆续公布AI研发成果,日前又发布了多模态大型语言模型(MLLM)Ferret和相关基准测试工具与资料集。多模态是指模型可处理多种类型的资料,以Ferret来说,它可接收文字、声音、影像和数据的输入值。

这款Ferret采用新式混合区域表征技术,整合了个别方位和连续性的特征,来表示图片中的某一区域。为提取出区域中的连续特征,苹果还提出一种空间感知的视觉采样器,来处理不同形状多种稀疏性。如此一来,Ferret就可接收多样化区域输入,像是点、边界框或自由形式的形状。

苹果用这些方法和资料训练出Ferret-13B。经测试,与Kosmos-2、GPT4-ROI、LLaVA、Shikra等MLLM相比,在需本地化的多模态对话和细节描述等任务中,Ferret表现都比这些MLLM好。在视觉化比较任务中,Ferret也表现出优异的空间理解和常识推理能力。苹果还指出,Ferret物件幻觉也比Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT和mPLUG-Owl等知名MLLM少很多。  船只轨迹     卫星图像     GPS  

靠AI和卫星图像,画出全球首张海上船只足迹地图

《自然》期刊最近刊出一篇研究报告,全球渔业观察(Global Fishing Watch)组织主导一项研究,用机器学习和卫星图像,绘制出全球首张海上基础设施和船只足迹地图,揭露75%的工业渔船一直在暗中活动。

团队透过卫星图像、船只GPS资料和AI模型,来分析2017年至2021年间的2PB卫星图像。他们训练了3个模型来辨识卫星图像的物件,也分析了船只自动辨识系统的530亿个GPS位置,并与卫星侦测结果比对,来确认侦测到的船只是否可公开追踪。他们发现,任何特定时间平均可检测到6.33万艘船只,当中近一半为渔船,但有3/4的渔船并未出现在公共侦测系统中,其它种类船只未出现的比例则是1/4。这代表,全球船只活动中,有一半的船只无法被公开追踪。这项研究颠覆了某些认知,比如以前以为没有太多船只活动的海域,其实聚集了大量船只,或是公开资料显示欧亚境内的捕鱼活动相似,但实际并非如此。图片来源/MosaicML、Zhengqing Yuan、金管会、苹果、Google、钛度科技

  AI近期新闻 

1. 微软全面推出Copilot App

2. 英特尔成立生成式AI公司Articul8 AI

3. 高通推出混合实境晶片Snapdragon XR2+

4. 高品质声音复制模型OpenVoice开源了

资料来源:iThome整理,2024年1月