清华大学发布创新AI光芯片,实现160 TOPS/W的通用智能计算

​本文由半导体产业纵横(ID:ICVIEWS)综合

人工智能浪潮下,光芯片发展在提速。

作为人工智能的三驾马车之一,算力是训练AI模型、推理任务的关键。

清华大学科研团队的新成果发布在了4月12日凌晨的最新一期《科学》上,首创分布式广度智能光计算架构,研制出全球首款大规模干涉衍射异构集成芯片“太极(Taichi)”,实现了160 TOPS/W的通用智能计算。

据介绍,“太极”光芯片架构开发的过程中,灵感来自典籍《周易》,团队成员以“易有太极,是生两仪”为启发,建立了全新的计算模型,实现了光计算强悍性能的释放。

光计算,顾名思义是将计算载体从电变为光,利用光在芯片中的传播进行计算,以其超高的并行度和速度,被认为是未来颠覆性计算架构的最有力竞争方案之一。

光芯片具备高速高并行计算优势,被寄予希望用来支撑大模型等先进人工智能应用。

据论文第一作者、电子系博土生徐智吴介绍,在“太极”架构中,自顶向下的编码拆分-解码重构机制,将复杂智能任务化繁为简,拆分为多通道高并行的子任务,构建的分布式'大感受野’浅层光网络对子任务分而治之,突破物理模拟器件多层深度级联的固有计算误差。

论文报道:“太极”光芯片具备879T MACS/mm的面积效率与160 TOPS/N的能量效率。首次赋能光计算实现自然场景千类对象识别、跨模态内容生成等人工智能复杂任务。

“太极”光芯片有望为大模型训练推理、通用人工智能、自主智能无人系统提供算力支撑。

人工智能需要光子电路

人工智能通常依赖于人工神经网络,用于分析医学扫描和生成图像等应用。在这些系统中,称为神经元的电路组件(类似于人脑中的神经元)被输入数据并合作解决问题,例如识别人脸。如果神经网络拥有多层这些神经元。

随着神经网络的规模和功率的增长,它们在传统电子设备上运行时变得越来越耗能。例如,为了训练其最先进的神经网络 GPT-3,2022 年《自然》杂志的一项研究表明,OpenAI 花费了 460 万美元在两周内运行 9200个GPU。

电子计算的缺点导致一些研究人员将光学计算作为下一代人工智能的有希望的基础进行研究。与电子对应物相比,这种光子方法使用光来更快地执行计算,并且功率更低。

清华大学领衔开发出的光子微芯片Taichi,可以在高级人工智能任务中与电子设备一样执行,同时被证明更加节能。

“光学神经网络不再是玩具模型,”清华大学电子工程副教授Lu Fang说:“它们现在可以应用于现实世界的任务。”

光学神经网络是如何工作的?

开发光学神经网络主要有两种策略:1、在微芯片内以特定模式散射光;2、让光波在器件内部以精确的方式相互干扰。当以光的形式输入这些光学神经网络时,输出光会对这些器件中执行的复杂操作的数据进行编码。

Fang 解释说,这两种光子计算方法都有明显的优点和缺点。例如,依赖于散射或衍射的光学神经网络可以将许多神经元紧密地聚集在一起,并且几乎不消耗任何能量。基于衍射的神经网络依赖于光束在穿过代表网络操作的光学层时的散射。然而,基于衍射的神经网络的一个缺点是它们无法重新配置。每个操作字符串基本上只能用于一个特定任务。

相比之下,依赖于干扰的光学神经网络可以很容易地重新配置。基于干扰的神经网络通过信道网格发送多个波束,它们在这些信道相交处的干扰方式有助于执行设备的操作。然而,它们的缺点是干涉仪也很笨重,这限制了这种神经网络的扩展能力。它们也会消耗大量能量。

此外,当前的光子芯片会遇到不可避免的错误。试图通过增加这些器件中的神经元层数量来扩展光学神经网络通常只会成倍地增加噪声。这意味着,到目前为止,光学神经网络仅限于基本的人工智能任务,例如简单的模式识别,换句话说,光学神经网络通常不适合先进应用。

研究人员表示,相比之下,Taichi是一种结合了衍射和干涉方法的混合设计。它包含衍射单元簇,可以在紧凑的空间内压缩数据以进行大规模输入和输出。该芯片还包含干涉仪阵列,用于可重构计算。Fang表示,为 Taichi 开发的编码协议将具有挑战性的任务和大型网络模型划分为可以分布在不同模块中的子模型。

Taichi 如何融合这两种神经网络?

以前的研究通常试图通过模仿电子对应物经常做的事情来扩展光学神经网络的容量——增加神经元层的数量。Taichi 的架构通过将计算分布在多个并行运行的小芯片上来扩展,这意味着 Taichi 可以避免当光学神经网络将许多神经元层堆叠在一起时发生的指数级累积错误问题。

“这种'深度浅,宽度宽'的架构保证了网络规模,”Fang说。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。