52年前的理论上车:揭秘理想马赫100与数据流架构

点击展示全部

作者 |肖恩

编辑 |德新

马赫100真正重要的,不是1280TOPS,而是数据流架构。

这届北京车展,全新一代理想L9 Livis终于亮相。这代L9对理想来说意义非凡:它承载的不只是销量目标,更是新阶段理想技术与品牌的集大成之作。

新一代L9 Livis技术亮点颇多,譬如800V全主动悬架、行业首个“完全体”全线控底盘,以及首次搭载的自研马赫100芯片——两颗芯片算力达到2560 TOPS。如果只看这个数字,你可能会把马赫100当作“又一颗更强的自动驾驶芯片”。

但真正值得关注的是,李想反复提到的一个术语:数据流架构。

这个词听起来陌生,但它并不年轻——从第一篇论文算起,这个概念被提出足有五十二年了,而马赫100正是把这条经典理念带入车载实时计算的首次尝试。

一、52年前的理论,为什么今天才上车?

要理解数据流架构的价值,得先回到半个世纪前的一个大胆设想:计算机究竟应该按指令顺序执行,还是按照数据是否到位来执行?

1974年,MIT的Jack Dennis提出了一个颠覆性的想法。他在会议上描述的画面很简单:程序不再是一串线性的指令,而是一张复杂的依赖网络。每一个操作都是一个节点,只有当它需要的所有数据都到位时,它才会“点火”执行。

数据像河流一样在图中流动,推动程序前行,而不是依赖传统的程序计数器。

这个理念听起来抽象,但优势很明显:它天然适合并行,计算单元不再因为等待数据或分支跳转而闲置,控制开销大幅降低。但是它也有局限性——复杂控制流对它不友好,令牌传递本身也消耗资源,而编译器要把通用程序翻译成这种图形结构,更是难上加难。尽管如此,学术界没有放弃。

1983年,Arvind和Robert Iannucci把这一理念整理成完整的理论体系,区分静态和动态数据流模型。三年后,Arvind和David Culler提出Tagged Token模型,让多条并行任务能动态创建,为MIT Monsoon项目奠定基础。

学术界的探索一次次推进,把数据流从概念推向可实践的蓝图。

然而,即便如此,数据流架构在工业界始终没能扎根。MIT Monsoon、McGill的EARTH、MIT的RAW——这些项目尝试把理论变成机器,却无法在通用计算市场站稳脚跟。

原因很简单:那时计算的主流仍是通用程序,而数据流架构最擅长的规则、可并行计算几乎没人需要。

直到深度学习出现,一切才开始改变。矩阵乘法和卷积——规则、密集、可并行——成了计算的主流,而数据流的理念与现代AI任务天然契合。

多年的理论积累终于找到了与工业实践的连接点,为后来的TPU、Cerebras、Groq,乃至马赫100的出现埋下伏笔。

二、当深度学习撞上存储墙,数据流等到了自己的时代

时间快进到2012年。

AlexNet在ImageNet上夺冠,深度学习一夜之间成为热点。矩阵乘法和卷积运算成为主流,而这些运算有一个共同特点:规则、密集、可并行。

这恰恰是数据流架构最擅长的领域。曾经被学术界冷落的理念,突然发现自己的技能正好符合新时代的需求。

这一转折的桥梁,是卡耐基梅隆大学的H.T. Kung。他在1980年代提出的脉动阵列(Systolic Array)设计,虽然当时只在理论上讨论,但原理非常清晰:一个二维计算单元阵列,数据像心跳一样在阵列中流动,每个单元只和邻居通信,不碰全局内存。

这样的设计天然减少了数据搬运开销,刚好解决了“存储墙”问题——也就是冯·诺依曼架构下CPU算得快,但数据传输跟不上,能耗巨大。

2015年,Google推出了第一代TPU,将脉动阵列的理念落到芯片上。两年后,他们在ISCA 2017上发布论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》,标志着数据流架构第一次在工业界获得了大规模验证。

数据流不再只是学术特产,它成为AI芯片设计中绕不开的核心思路。

随后,工业界涌现出多个里程碑产品:Cerebras WSE把整块晶圆做成一颗芯片,几乎消灭了片间通信瓶颈;Groq LPU将调度严格提前到编译期,实现了运行时零调度、低延迟确定性推理;Graphcore IPU和华为昇腾则分别在通用AI加速和数据中心计算中探索各自路径。

这些产品共同回答一个问题:如何让数据在计算单元间顺畅流动,而不是在计算单元和内存间频繁搬运。

从11974年到2015年,数据流架构经历了41年的学术沉淀和工业试验,才真正找到了可以大规模落地的方向。而从数据中心到汽车驾驶座,这一理念又经历了大约十年的工业探索,最终在理想L9上首次落地。

三、马赫100,理想怎么把大模型搬上车?

当理想在2022年启动自研芯片计划时,他们面临一个核心选择:继续依赖通用GPU,还是打造一颗专门为大规模AI计算设计的芯片。

Orin曾是当时的顶尖选择,但它更像一辆多用途轿车,通用而灵活,却无法在高频低延迟的大模型推理上发挥最大潜力。理想决定打造马赫100——一颗为数据流架构量身设计的芯片,让架构与硬件紧密协作,最大化大模型和自动驾驶场景的效率。

在芯片的硬件设计上,马赫100采用了Chiplet模块化设计。

简单来说,芯片被拆分成多个功能模块,每个模块承担计算、控制或缓存任务,通过高速互联协同工作。

这种设计不是简单堆叠多个SOC,而是像把一座复杂工厂分成若干车间,每个车间各司其职,同时通过高效调度保证整体顺畅。Chiplet设计带来的优势有:

  • 提高良率:每个模块单独测试,降低整片报废风险;
  • 灵活迭代:某些模块升级或优化无需重做全芯片;
  • 扩展性强:多模块协作轻松增加算力。

AMD于2019 年发布的Ryzen 3000系列(Zen 2 架构)就是Chiplet设计的经典产品,将核心计算部分和I/O部分分成不同的芯片粒(Chiplet),再通过内部高速互联组合成一颗完整处理器。与Intel当时主推的Core i9‑9900K等传统单片设计相比较,Ryzen 3000系列凭借模块化设计在性能、能效比和制造良率上取得明显优势,也帮助AMD在桌面CPU市场迅速提升竞争力。

同样的架构理念也体现在马赫100身上。Chiplet让马赫100在车规工艺要求、高算力、高可靠性条件下保持模块化协作,让设计复杂度可控、制造风险降低。在此基础上,马赫100能够在后续的数据流优化中发挥更高的资源利用效率。

相较于Thor U,马赫100的Chiplet模式为它提供了更好的扩展性和灵活性,并为后续的数据流架构优化打下了物理基础。

在芯片架构之外,马赫100最核心创新在于编排式数据流架构。

数据流架构的核心理念是:计算单元像自发行动的员工,只要数据到位,就立即处理,无需等待上级指令。

然而,复杂神经网络中上亿条数据依赖的流动,就会产生“令牌路由开销”。可以把它想象成一个巨大的物流中心:如果每件包裹都要临时找路径、排队、确认位置,整体效率就会被拖慢。

马赫100的创新是把数据流路径和处理时序提前规划到编译阶段——就像提前为物流中心规划好所有路线和调度表,每个计算单元都知道自己何时、处理哪条数据,运行时无需再查路线,也不会互相冲突。

这种“编排式数据流”设计带来显著优势:

  • 高利用率:计算单元几乎连续工作,减少闲置;
  • 低延迟:数据直接在计算单元间流动,不经过全局内存中转,绕过存储墙瓶颈;
  • 灵活可编程:数据流路径可随AI模型迭代更新,既不是固定ASIC,也不是简单GPU。

理想在ISCA 2026发表的论文详细呈现了这套设计:如何将复杂模型展开成数据流图,在芯片内部以精确节奏运作。

每个计算单元知道何时处理哪些数据,避免空闲或拥堵,实现了极高的利用率。

Chiplet的芯片硬件设计和编排式数据流架构,让马赫100在实际运行中显示出巨大的优势:单颗芯片的有效算力约是Thor U的三倍,而两颗协同运行时,数据处理效率可达到Thor U的五到六倍。

这意味着在运行大模型时,更多计算单元始终保持满负荷运转,从而显著降低延迟并提升推理吞吐量。


四、3null

声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来源网络,感谢原作者。
17
04-30
分享
发表您的看法…
半价购
分享