LSTM发明者之一的德国电脑科学家Sepp Hochreiter最近发表一款新LLM架构:xLSTM,改善了LSTM原本的记忆体和无法平行化等问题,提高运算效率,媲美以Transformer架构为基础的语言模型。
Sepp Hochreiter
重点新闻(0503~0509)
LLM xLSTM Transformer
取代Transformer?LSTM之父发表新LLM架构
长短期记忆(LSTM)网路是一种热门的类神经网路架构,由德国和瑞士的电脑科学家Sepp Hochreiter、Jürgen Schmidhuber共同在1997年提出,可用来解决递回归类神经网路(RNN)在长期记忆力不足的问题。但最近,Sepp Hochreiter提出一种新架构DeepMind 分子结构 AlphaFold 3
不只是蛋白质结构,DeepMind发表可预测所有生命分子结构的AlphaFold 3模型
Alphabet旗下AI研究公司DeepMind与新药开发公司Isomorphic Labs联手发表AlphaFold 3模型,可用来预测所有生命分子的结构与相互作用,而且在预测蛋白质与其它分子类型的相互作用上,准确率比PoseBusters基准测设中最好的传统方法高出50%。
进一步来说,DeepMind在2020年发表的AlphaFold 2主要提供蛋白质结构预测,迄今全球已有数百万名研究人员利用AlphaFold 2来发现疟疾疫苗或癌症治疗方法。而最新的AlphaFold 3模型也以AlphaFold 2为基础,只是将预测能力,从蛋白质扩大到广泛的生物分子,能用来加速开发生物可再生材料、药物设计和基因研究等。该研究已登上《自然》科学期刊。
同时,DeepMind也推出免费但只限于研究用途的AlphaFold Server平台,可用来预测蛋白质如何与细胞中的其它众多分子相互作用,每个任务最多支援5,000个Token,每天最多只能执行10个任务。
Llama 3 TAIDE 生成式AI
国科会揭TAIDE计划最新成果
去年2月,国科会宣示将结合台湾在地文化推出本地的LLM模型,并集结国内产学研资源推动可信任AI对话引擎(TAIDE)计划。今年5月初,国科会进一步展示TAIDE最新进展,包括今年4月中释出的模型TAIDE LX-7B,有商用版和学研用版本,另也释出130亿参数的模型TAIDE LX-13B,这些模型在摘要、写信、写文章、英翻中、中翻英等都有不错的表现,并具备多轮对话、阻绝不恰当回应的能力。
同时,Meta在4月中释出Llama 3,国科会团队也花4天就快速更新版本,打造Llama 3-TAIDE-LX-8B-Chat-Alpha 1测试版,并于4月29日在Hugging Face释出。计划负责人李育杰表示,为让全民都能使用TAIDE,团队压缩TAIDE 7B模型,现在模型已可在手机、笔电、平板电脑、桌机上执行。
目前也有不少团队用TAIDE打造不同应用,比如阳明交大以ChatGPT和TAIDE开发一套台客语对话平台,能以语音对话,电脑可以华台客英语,以听说读写翻译或是回复对话。高雄大学也打造一款Kuwa GenAI OS(下图),为本土开发的开源码生成式AI应用平台,搭载TAIDE模型,强调可让个人或企业在地端执行TAIDE生成式AI应用服务。其他还有中兴大学以农业知识库开发的神农TAIDE、工研院电光所的钢铁产业问答助理、叡扬资讯的生成式AI公文生成系统。 AI开发 Red Hat Granite
Red Hat推出AI平台,内建IBM开源Granite模型
又有一款生成式AI开发平台可选择了,Red Hat日前发表一款AI平台Red Hat Enterprise Linux AI(RHEL AI),企业用户可用来在混合云环境开发、测试和部署生成式AI模型。RHEL AI是Red Hat首个基础架构模型平台,内建IBM研究院开源的大型语言模型(LLM)Granite和其他开发工具。IBM表示,整个解决方案将打包成一个RHEL映像档,可用于混合云上部署单一伺服器,此外,RHEL也会整合到混合云MLOps平台OpenShift AI中。
Granite是IBM研究院开发的旗舰级LLM,去年9月正式发布,包含4个版本,可用于AI助理、财务应用、多语言翻译(英、西、葡、德、法文)等应用,另也有日文专用版本。而RHEL AI内建的是Granite 70亿参数模型,以Llama 2-7B为基础,用2兆Token资料集训练而成,可支援4,000个Token的文长。除了Granite模型,该平台还包含IBM研究院打造的模型训练方法与工具,也就是Large-scale Alignment for chatBots(LAB),可减少人员标注成本、降低模型开发门槛,也能提供大量生成资料,来加速模型的训练与优化。 AI晶片 M4 苹果
苹果发表最新AI晶片
在今年年会上,苹果发表新一代M4晶片,并更新iPad产品线,推出首个采用M4晶片的iPad Pro和采用M2晶片的iPad Air。M系列是苹果自行设计的晶片,去年10月才发表M3,不到一年就推出M4,这个M4采台积电3奈米制程,由280亿个电晶体组成,搭载最多10核心的CPU,包括4个效能核心与6个节能核心,两者都具备强化的新一代机器学习(ML)加速器。而同样搭载最高10核心的GPU则支援动态快取功能,可提高GPU的平均利用率。
苹果指出,M4拥有飞快的神经网路引擎(Neural Engine),这是专门用来加速AI任务的IP区块,每秒可执行38兆次的运算,是A11 Bionic晶片的60倍快,再搭配CPU的ML加速器、高效能的GPU,以及更高频宽的统一记忆体,让M4成为超强AI晶片。这个特性,让搭载M4晶片的iPad Pro,成为可支援AI运算的装置,例如在Final Cut Pro中轻点一下,就能轻松地分离4K影片中的主体及背景。