来自Meta、艾伦AI研究院和华盛顿大学的研究团队开源一款语言模型代理哈士奇(HUSKY),可处理复杂的多步骤推理任务,透过2个阶段不断迭代。
重点新闻(0619~0625)
Husky-v1 语言模型 代理
Meta开源一款AI代理「哈士奇」
最近,来自Meta、艾伦AI研究院和华盛顿大学的研究团队开源一款语言模型代理哈士奇(HUSKY),可处理复杂的多步骤推理任务。进一步来说,AI代理(Agent)是指由AI模型驱动的智慧系统,可从环境中学习、适应并自动完成特定任务,比如Siri。而哈士奇这个代理在统一空间中执行运算,意味著单一个哈士奇就能处理多类型任务,像是数值、表格和知识推理,而非只专注特定任务,如程式码撰写代理。
团队发表的第一代哈士奇代理为Husky-v1,透过2个阶段不断迭代:首先是根据给定任务,来生成下一步的解决动作,再来是用专家模型执行这个动作,同时不断更新解决方案。其中,第一代哈士奇的专家模型包含程式码生成器、询问生成器和数学推理器等3款,它们皆用合成资料训练而成。团队也用14个不同任务来评测Husky-v1,发现它的表现优于其他代理,如CoT、ReAct、Lumos等,甚至在混合工具推理任务中,胜过GPT-4-Turbo。 金管会 AI指引 金融业
金管会发布金融业运用AI指引
最近,金管会终于发布「金融业运用AI指引」,与去年12月底提出的草案大方向一致,除提供AI系统和生成式AI定义,也说明4个AI系统生命周期阶段,并提供业者在各阶段中落实6大核心原则的处理机制。
进一步来说,这份AI指引就像是一份AI操作建议书,分别引导业者在导入AI或使用生成式AI时,如何在4个阶段中,包括系统规画及设计、资料搜集及输入、模型建立及验证、系统部署及监控等阶段,落实6大核心原则,也就是建立治理及问责机制、重视公平性及以人为本的价值观、保护隐私及客户权益、确保系统稳健性与安全性、落实透明性与可解释性,和促进永续发展。
比起草案,这份正式版多出了实务作法,也提及更多第三方业者的监督管理方式,对自建、委外和外购等不同部署方式增订相关内容,也修改风险评估因素的叙述方式、增加指引适用的弹性。综合规画处处长胡则华指出,目前采用生成式AI的金融机构有29家,银行业占最多,使用场景大多为内部作业,第二是智能客服,第三则是行销广告。 Luma AI 影片生成 Dream Machine
美AI新创开源高品质影片生成模型
旧金山一家AI新创Luma AI最近发表AI系统Dream Machine,可根据简单的文字描述,来生成高品质影片,且号称几分钟就能完成。有别于OpenAI的影片生成模型Sora和快手的Kling、只对特定群众开放,Luma AI Claude 3.5 Sonnet Anthropic 语言模型
Claude 3.5 Sonnet问世了,评测表现胜过GPT-4o
Anthropic日前发表了新款大型语言模型Claude 3.5 Sonnet,是Claude系列的中阶模型,但表现和效率都超越Claude 3.0的高阶模型Opus,在大多数的评测上也胜过OpenAI今年5月推出的GPT-4o。进一步来说,Claude 3.5 Sonnet的执行速度是Claude 3 Opus的两倍,Anthropic自己也以自然语言指令,要求不同模型修补开源程式码臭虫或新增功能,发现Claude 3.5 Sonnet解决了64%的问题,超越Claude 3 Opus的38%。
在提供指示与相关工具后,Claude 3.5 Sonnet得以独立撰写、编辑与执行程式码,可执行复杂的推论及故障排除能力,轻松处理程式码的转换,能更有效率更新老旧应用程式并迁移程式码库。Claude 3.5 Sonnet不仅在所有基准评测上胜过Claude 3 Opus,它在GPQA、HumanEval、MGSM、DROP、BIG-Bench-Hard或是与视觉有关的MathVista、AI2D、Relaxed accuracy及ANLS score等评测上也超越了GPT-4o,只有在MMLU、MATH及MMMU上略逊GPT-4o。
EVI的情绪理解能力,是来自Hume AI对非话语的情绪性语音研究成果,这类语音是指透露情绪的语助词,或单纯是透露情绪的发声词。为训练EVI的情绪理解模型,Hume AI收集了来自1万6千多人共数千个语音片段档案,横跨美国、中国、印度、南非和委内瑞拉。Hume AI表示,未来,他们打算扩展EVI能力,增添全球通用的脸部表情辨识能力。图片来源/Meta、Mohamed Baioumy、Luma AI、Anthropic、Hume AI、Databricks AI近期新闻