史丹佛大学团队发表一款电脑视觉模型LogicTreeNet,结合逻辑闸网路和卷积网路,不仅模型小巧快速,还维持辨识精准度。在MNIST测试中,推论速度比SOTA模型快上160倍。
重点新闻(1108~1114)
推论速度 电脑视觉 LogicTreeNet
又快又小又准确,史丹佛大学提出另类电脑视觉模型
最近,史丹佛大学发表一项电脑视觉研究成果,整合了卷积网路和逻辑闸网路(Logic Gate Networks,简称LGNs),打造出名为LogicTreeNet的卷积可微分逻辑闸网路。在CIFAR-10测试中,这个网路只需6,100万个逻辑闸,就能达到86.29%的辨识准确率,比SOTA高阶模型表现更好,且模型还小了29倍,适合用于运算资源有限的场景。
团队解释,之所以会开发LogicTreeNet,是因为LGNs的运算速度,比传统神经网路方法还要快许多。因为LGNs要执行推论,只需NAND、OR和XOR等逻辑闸运算子,而这些运算子是目前硬体沟通的重要元素,换句话说,这类网路在硬体执行上,比传统网路更有效率。于是,团队在这个基础上,用深度逻辑闸树卷积、逻辑OR池化、残差初始化等3种方法,来将LGNs结合电脑视觉的卷积网路,并大规模扩展。
其中,残差初始化可在深度网路中,尽可能保存资讯,防止梯度消失。而逻辑OR池化结合逻辑树内核,可大幅提高训练效率。经团队测试,LogicTreeNet在MNIST测试中,推论速度比SOTA模型快上160倍,而在CIFAR-10测试中,则快上1,900倍。 多模态 GUI互动 微软
微软也用多模态LLM打造GUI代理工具
上个月,微软开源一款GUI代理程式OmniParser,结合了多模态大语言模型(LLM)和其他模型,来辨识装置UI画面(如手机萤幕)、自动执行互动指令,是多模态LLM的另一新应用 。微软团队表示,GPT-4V和GPT-4o这类LLM,在处理一般任务时表现优异,但要作为通用代理、只靠视觉输入来处理跨系统任务,仍不够准确。
为解决难题,微软先建立2个专属资料集,包括网页中可互动的icon资料集、icon描述资料集(即说明UI元件与其功能),来分别训练2套模型。一套是侦测模型,以第一个资料集微调而成,用来辨识萤幕中可互动的icon图标,另一套是图说模型,以第二个资料集训练而成,用来解释侦测到的UI元件功能。这两套模型都采Transformer解码器架构,组合起来就是OmniParser。
微软表示,经测试,OmniParser可精准辨识UI中的元件,并生成正确的功能解释,可搭配GPT-4V执行精准的GUI代理任务、与系统互动。微软并非第一家在该领域有所突破的企业,苹果和Anthropic也发表过这类领域研究成果;随著GUI解析技术的成熟,AI在跨平台操作中的灵活性将大幅提升,让自动化应用越来越可行。 多代理 微软 Magentic-One
微软开源多代理AI系统
最近,微软释出一款多代理AI系统Magentic-One,专门为跨领域、开放式网页与档案操作任务设计,并在GitHub开源。进一步来说,该系统以Microsoft AutoGen框架为基础,允许多个代理相互协作完成复杂任务,可用于程式开发、资料分析和研究等领域。
Magentic-One采多代理架构,由主导代理Orchestrator负责规画任务、追踪进度,也会分配具体子任务给其他4个代理。不同代理有不同专长,包括从本机档案中撷取资讯、操作网页浏览器,或编写和执行Python程式码等。Magentic-One高度模组化、随插即用,可根据开发者需求,灵活添加或移除代理。在开源Magentic-One的同时,微软也释出相对应的评估工具AutoGenBench,供开发者在控制变数和隔离环境下进行系统测试,确保该系统的稳定表现。 Hugging Face 小型语言模型 SmolLM2
Hugging Face发表轻量级小型语言模型SmolLM2
最近,AI社群Hugging Face发布一系列可在手机上执行的小型语言模型SmolLM2。这是继7月首次问世后,SmolLM家族的最新版本,包括参数量135M、360M与1.7B三种版本。其中,135M参数模型又可分为基础版和Instruct版,360M与1.7B参数模型则各自分成基础、Instruct和GGUF(GPT-Generated Unified Format)版本,共11个模型,皆以Apache 2.0授权开源。
135M、360M与1.7B都是以公开资料集和Hugging Face编排的资料集训练,但1.7B版本还多了数学与程式码资料集。这些资料集分别有2兆、4兆与11兆个字符(Token)。相较于第一代,SmolLM2在指令遵从、知识与理解能力表现更好,也拜Argilla资料集之赐,Instruct模型还支援改写、重要摘要与函式呼叫等任务。不过,SmolLM2模型只能理解和生成英文内容,也还存在事实准确性、逻辑一致性以及偏差等问题。图片来源/史丹佛大学、微软、Hugging Face
AI近期新闻