IBM发表模拟人类大脑运作,号称效能超越4奈米GPU的AI推论晶片NorthPole

IBM Research上周五(10/20)发表了全新的AI晶片NorthPole,其灵感来自人类大脑的运作,号称效能超越最先进的4奈米GPU,尽管它只能用在推论上,但研究人员认为,需要即时处理大量资料的边缘应用可能非常适合NorthPole。此一研究成果已登上《科学》(Science)期刊

该研究是由IBM Research类人脑运算的科学长Dharmendra Modha所主导,他曾于2014年发表模拟人脑运作的TrueNorth晶片,而NorthPole即是TrueNorth的延伸。

在传统的半导体产业中,电脑晶片主要遵循相同的基本架构,处理单元与储存资讯的记忆体是分开的,此一架构虽然简化了设计与扩展,却也因资料传输速度赶不上处理速度而出现了冯纽曼瓶颈(von Neumann Bottleneck),而Modha则认为,人脑是目前所知最节能的处理器,因而持续寻找以数位方式复制它的方法。

历经8年研发的NorthPole最大的不同点在于它所有的记忆体都在晶片上,而不必额外连结记忆体,没有了冯纽曼瓶颈,它的AI推论能力就能优于市场上的其它晶片。此外,它采用12奈米制程,于800平方毫米上安置了220亿个电晶体,它拥有256个核心,于8-bit精度下每核心每个周期可执行2,048次操作,若是在4-bit或2-bit 精度下,操作次数则可翻倍。Modha说,这等于是一个晶片上拥有整个网路。

图片来源_IBM

在架构上,NorthPole模糊了运算与记忆体之间的界线。从个别核心的角度来看,它如同记忆体接近运算(memory-near-compute),从输入与输出的角度来看,它又是个主动记忆体。这让NorthPole容易整合至系统,且明显减少了主机的负载。

IBM Research在ResNet-50模型上测试NorthPole,相较于同样基于12奈米制程的GPU,NorthPole每秒辨识帧数的能源效率是GPU的25倍,而且不管是在延迟或运算空间的要求上,表现都优于所有主流架构,甚至凌驾基于4奈米制程的先进GPU。

不过,NorthPole的优势同时也是它的限制,它只能轻松自晶片上的记忆体存取,若必须存取其它地方的资讯,所有的速度都会被削弱,因此,若要支援更大的神经网路,便必须将神经网路拆解成更小的子网路以迎合NorthPole的记忆体设计,再借由众多的NorthPole晶片串连这些子网路。

Modha表示,尽管NorthPole无法用来执行GPT-4,但应该可满足许多企业所需的模型,不过,NorthPole只能用在推论上。

NorthPole在效能上的优势代表它不需要庞大的液体冷却系统就能运作,只需要风扇与散热器,也可部署于狭小的空间中,目前IBM Research仍在研究NorthPole的适用领域,猜测许多需要即时处理大量资料的边缘应用可能非常适合NorthPole,例如可成为帮助自驾车导航的装置,让卫星监控农业与野生动物,监控车辆及货运以避免道路过于拥塞,让机器人的操作更安全,或是用来侦测网路威胁等。