特斯拉芯片,放了个大招!

发表时间:2022-09-08 11:23
8月19日,业界翘首以待的特斯拉人工智能日正式召开。本次大会再次印证了特斯拉“不仅仅是一家电动汽车公司”,前有自研FSD完全自动驾驶芯片,本次又自研了AI训练芯片Dojo D1,而且一下就将超级计算机做到了最快,此外还要做特斯拉机器人。只能说,这很特斯拉。

世界上最快的AI训练芯片Dojo “D1”


本次人工智能日,笔者最关心的当属特斯拉为其Dojo计算机推出的这款自研的“D1”芯片,它采用7纳米技术,具有500亿个晶体管,单片FP32可达到算力22.6 TOPs,BF16算力为362 TOPs,如下图1所示。

图片
图1:D1芯片参数介绍(图源:特斯拉)

据Autopilot 硬件高级总监 Ganesh Venkataramanan介绍到,这款芯片具有GPU级的计算能力和CPU的连接能力,而且I/O带宽是当今最先进的网络交换芯片的两倍,被认为是黄金标准,如图2所示。

图片
图2:D1芯片与主流的芯片带宽对比(图源:特斯拉)

单个芯片的性能已然很强大,但很可怕的是,D1芯片可以之间无胶连接,可以在任何主要方向上进行计算和通信,而且相邻的芯片之间延迟也很低。甚至50万个节点都可以连接在一起。

图片

将25个“D1”芯片放在一块训练板上,再集成上排热、电源等一系列模块,最终就可以达到 9 petaflops的计算能力,最大36TB/s的I/O带宽。

图片
图片
图片
图片
Venkataramanan 自豪地举起这款芯片(图源:特斯拉)

而将3000个特斯拉 D1芯片排列集成在120块训练模块上,就组成了最终的Dojo超级计算机——ExaPOD。它具有超过100万个训练节点。ExaPOD达到了1.1 EFLOP,这超越了日本富士通的 0.415 EFLOP,登顶超级计算机全球第一。而且在同样的花费下,ExaPOD具有4倍的性能,1.3倍的功率节约,5倍小的Footprint。

图片

Venkataramanan 介绍到,它能用时进行计算和数据传输,定制的ISA完全对机器学习工作负载进行了优化,总而言之,这是一台纯粹的机器学习机器。特斯拉的“Dojo”超级计算机将训练其以视觉为中心的自主技术。它必须教会系统以与人类相同的敏锐度和速度做出反应。

关于Dojo的路线图,在会上也有一定介绍。下一代的Dojo芯片将提升10倍性能。

图片

所以,现在的情况就是,Dojo D1 芯片是世界上最快的 AI 训练芯片,Dojo超级计算机是世界上最快的计算机。

台积电的InFO_SoW封装?


我们也看到,特斯拉将多个Dojo D1芯片集成在一起,而且无缝连接。虽然目前还不确定是用的哪种封装技术,但是据semianalysis的猜测,这种封装方式,唯一能想到的就是台积电在晶圆技术上的集成扇出系统 (InFO_SoW)。

芯片尺寸在AI中非常重要,因为芯片越大就可以更快地处理信息,在更短的时间内产生答案。减少训练时间,使研究人员能够测试更多想法,使用更多数据并解决新问题。谷歌,Facebook,OpenAI,腾讯,百度和许多专业人士都认为,今天人工智能的主要限制是训练需要很长时间。因此,缩短训练时间就消除了整个行业进步的主要瓶颈。

当然,芯片制造商通常不会制造如此大的芯片。因为在单个晶圆上,在制造过程中通常会产生一些杂质,杂质会导致芯片发生故障。如果晶圆上只有一个芯片,它有杂质的几率是100%,杂质会使芯片失效。

通常,在将硅片结合到封装之前将硅片切成裸片,那么得到的封装将大于物理裸片。对于那些需要绝对最小裸片尺寸的公司,这种安排并不理想。为此台积电提供了另一种技术,称为晶圆级处理,通过在芯片仍然是晶圆的一部分时封装芯片来消除尺寸差异。这样可以节省大量空间,但会限制芯片可用的电气连接数量。

而台积电的InFO_SoW(system-on-wafer)技术,主要用于处理超算AI芯片。这是台积电多年来提供的一种封装技术。InFO 通过将更传统的模切工艺与附加步骤相结合来解决这一限制,以保留晶圆级工艺 (WLP) 创造的大部分尺寸优势。芯片以传统方式切割,然后重新安装在第二个晶圆上,每个芯片之间留有额外的空间用于连接。所以,看下来,InFO_SoW 的重点是利用 InFO 提供的优势并将其扩展到晶圆大小的处理块。

晶圆级处理的理论优势之一是以最小的功耗实现巨大的连接性。InFO_SoW 本身就是载体,因此不需要使用板或 PCB。紧凑型系统内紧密封装的多芯片阵列使该解决方案能够获得晶圆级优势,例如低延迟芯片间通信、高带宽密度和低 PDN 阻抗,以实现更高的计算性能和能效。除了异构芯片集成之外,其晶圆现场处理能力还支持基于小芯片的设计,以实现更大的成本节约和设计灵活性。下面的幻灯片说明了一些差异,包括 PDN(配电网络)阻抗的显着降低。

图片
图片来自台积电
图片

如今,每个人都专注于封装的原因是因为越来越难以通过缩小die和改进工艺节点来使晶体管获得更好的性能。改善封装技术是公司试图在不违反物理定律的前提下提高性能的方法之一。

无论是晶圆级封装,还是AI大芯片,Cerebras早已是发展在前,2019年8月,初创公司Cerebras Systems宣布推出有史以来最大的芯片Wafer Scale Engine(WSE)。Cerebras的芯片就是在单个晶圆上通过互联实现的单芯片。这些互连设计使其全部保持高速运行,可使万亿个晶体管全部一起工作。

不止造车,特斯拉机器人来了


在 Tesla 工程师和高管们谈论计算机视觉、Dojo 超级计算机和 Tesla 芯片之后,有一个简短的插曲,其中出现了一个看起来像外星人的舞者舞台上,身着白色紧身套装,脸上戴着闪亮的黑色面具。事实证明,这不仅仅是特斯拉的噱头,而是对特斯拉机器人的介绍,特斯拉实际上是在建造一个人形机器人。

马斯克说,基于D1芯片,未来还可能做一个真正的机器人Tesla Bot,和特斯拉车辆连在一起……“。马斯克称特斯拉将于明年推出人形机器人原型。

图片

黑色光面结构的头部设计,肩部和身体部分是白色和灰色的。这个人形机器人看起来像一个击剑运动员。根据马斯克的说法,这个机器人将能够执行危险、重复或无聊的任务。为了以最人性化的方式移动,它将有 40 个关节。

它身高5英尺8英寸,重 125 磅,行走时速为 5 英里/小时,承载能力为45磅,面部成为显示重要信息的屏幕。机器人内部代号为擎天柱,马斯克想在未来将其打造成能够与人类共事的力量。此举也深刻印证了马斯克说的“特斯拉不仅仅是一家电动汽车公司。”

图片

特斯拉计划使用 Dojo 超级计算机训练 Teslabot 执行其任务,该计算机目前也在开发中,马斯克预计将于 2022 年投入使用。

解决计算视觉问题


在 AI Day 期间,特斯拉再次支持其基于视觉的自动驾驶方法,这种方法使用神经网络理想地允许汽车通过其“自动驾驶仪”系统在地球上的任何地方运行。特斯拉的人工智能负责人Andrej Karpathy将特斯拉的架构描述为“从头开始构建一种动物”,它可以四处移动、感知环境并根据所见事物智能自主地行动。在这其中,视觉显得很重要。

图片
特斯拉人工智能负责人 Andrej Karpathy 解释了特斯拉如何管理数据以实现基于计算机视觉的半自动驾驶。图片来源:特斯拉

特斯拉正在通过其计算机视觉架构解决的两个主要问题是临时遮挡和出现在道路上较早的标志或标记。该公司组建了超过 1,000 人的手动数据标记团队,并向观众介绍了特斯拉如何自动标记某些剪辑,其中许多剪辑是从特斯拉在路上的车队中提取的,以便能够进行大规模标记。有了所有这些真实世界的信息,人工智能团队然后使用令人难以置信的模拟,创建“一个以 Autopilot 为玩家的视频游戏”。模拟特别有助于处理难以获取或标记的数据,或者如果数据处于闭环中。

特斯拉:我只想招AI人才


最后不得不说的是,特斯拉此行祭出Dojo D1芯片,Dojo超级计算机,一系列软件的更新等操作,除了展示公司的一些成果之外,更大的意图是为了吸引优秀AI人才。马斯克先生呼吁工程师“加入我们的团队,帮助开发Tesla bot”。

图片

目前,人工智能市场正处于繁荣时期。快速的技术增长和人工智能人才供需之间的差距创造了竞争激烈的格局。根据国际数据公司 (IDC) 全球半年度人工智能追踪器的最新发布,包括软件、硬件和服务在内的人工智能市场的全球收入预计将在 2021 年增长至 3275 亿美元,而预计将突破到 2024 年将达到 5000 亿美元大关。专家表示,这种闪电式增长在意料之中。全球大流行加速了人工智能创新,并将人工智能推到了企业议程的首位。尽管持续的 AI 颠覆可能具有变革性,但它也引发了一场不断扩大的AI 人才战争,而且没有停止的迹象。

LinkedIn 在其2020 年新兴工作报告中发现,在过去 4 年中,人工智能专家职位的招聘增长率每年增长74% 。Indeed 将机器学习工程师列为其2019 年美国最佳工作报告之首。2015 年至 2018 年,该职位的职位增加了 344%,平均基本工资为 146,085 美元。

另据TalentSeer 2020 AI 人才报告中的数据,经历快速扩张和扩张(A 轮或 B 轮及以后)的成长阶段初创公司通常提供最高的基本工资,可与顶级科技公司(谷歌、Facebook、苹果、亚马逊、LinkedIn、优步等)相媲美。这些初创公司的基本工资中位数约为 20 万美元,甚至可能高达 35 万美元或更高,以吸引科技巨头的人才担任重要的领导角色。