52年前的理论上车：揭秘理想马赫100与数据流架构

HiEV大蒜粒车研所

新一代智能汽车创新研究平台

点击展示全部

作者 |肖恩

编辑 |德新

马赫100真正重要的，不是1280TOPS，而是数据流架构。

这届北京车展，全新一代理想L9 Livis终于亮相。这代L9对理想来说意义非凡：它承载的不只是销量目标，更是新阶段理想技术与品牌的集大成之作。

新一代L9 Livis技术亮点颇多，譬如800V全主动悬架、行业首个“完全体”全线控底盘，以及首次搭载的自研马赫100芯片——两颗芯片算力达到2560 TOPS。如果只看这个数字，你可能会把马赫100当作“又一颗更强的自动驾驶芯片”。

但真正值得关注的是，李想反复提到的一个术语：数据流架构。

这个词听起来陌生，但它并不年轻——从第一篇论文算起，这个概念被提出足有五十二年了，而马赫100正是把这条经典理念带入车载实时计算的首次尝试。

一、52年前的理论，为什么今天才上车？

要理解数据流架构的价值，得先回到半个世纪前的一个大胆设想：计算机究竟应该按指令顺序执行，还是按照数据是否到位来执行？

1974年，MIT的Jack Dennis提出了一个颠覆性的想法。他在会议上描述的画面很简单：程序不再是一串线性的指令，而是一张复杂的依赖网络。每一个操作都是一个节点，只有当它需要的所有数据都到位时，它才会“点火”执行。

数据像河流一样在图中流动，推动程序前行，而不是依赖传统的程序计数器。

这个理念听起来抽象，但优势很明显：它天然适合并行，计算单元不再因为等待数据或分支跳转而闲置，控制开销大幅降低。但是它也有局限性——复杂控制流对它不友好，令牌传递本身也消耗资源，而编译器要把通用程序翻译成这种图形结构，更是难上加难。尽管如此，学术界没有放弃。

1983年，Arvind和Robert Iannucci把这一理念整理成完整的理论体系，区分静态和动态数据流模型。三年后，Arvind和David Culler提出Tagged Token模型，让多条并行任务能动态创建，为MIT Monsoon项目奠定基础。

学术界的探索一次次推进，把数据流从概念推向可实践的蓝图。

然而，即便如此，数据流架构在工业界始终没能扎根。MIT Monsoon、McGill的EARTH、MIT的RAW——这些项目尝试把理论变成机器，却无法在通用计算市场站稳脚跟。

原因很简单：那时计算的主流仍是通用程序，而数据流架构最擅长的规则、可并行计算几乎没人需要。

直到深度学习出现，一切才开始改变。矩阵乘法和卷积——规则、密集、可并行——成了计算的主流，而数据流的理念与现代AI任务天然契合。

多年的理论积累终于找到了与工业实践的连接点，为后来的TPU、Cerebras、Groq，乃至马赫100的出现埋下伏笔。

二、当深度学习撞上存储墙，数据流等到了自己的时代

时间快进到2012年。

AlexNet在ImageNet上夺冠，深度学习一夜之间成为热点。矩阵乘法和卷积运算成为主流，而这些运算有一个共同特点：规则、密集、可并行。

这恰恰是数据流架构最擅长的领域。曾经被学术界冷落的理念，突然发现自己的技能正好符合新时代的需求。

这一转折的桥梁，是卡耐基梅隆大学的H.T. Kung。他在1980年代提出的脉动阵列（Systolic Array）设计，虽然当时只在理论上讨论，但原理非常清晰：一个二维计算单元阵列，数据像心跳一样在阵列中流动，每个单元只和邻居通信，不碰全局内存。

这样的设计天然减少了数据搬运开销，刚好解决了“存储墙”问题——也就是冯·诺依曼架构下CPU算得快，但数据传输跟不上，能耗巨大。

2015年，Google推出了第一代TPU，将脉动阵列的理念落到芯片上。两年后，他们在ISCA 2017上发布论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》，标志着数据流架构第一次在工业界获得了大规模验证。

数据流不再只是学术特产，它成为AI芯片设计中绕不开的核心思路。

随后，工业界涌现出多个里程碑产品：Cerebras WSE把整块晶圆做成一颗芯片，几乎消灭了片间通信瓶颈；Groq LPU将调度严格提前到编译期，实现了运行时零调度、低延迟确定性推理；Graphcore IPU和华为昇腾则分别在通用AI加速和数据中心计算中探索各自路径。

这些产品共同回答一个问题：如何让数据在计算单元间顺畅流动，而不是在计算单元和内存间频繁搬运。

从11974年到2015年，数据流架构经历了41年的学术沉淀和工业试验，才真正找到了可以大规模落地的方向。而从数据中心到汽车驾驶座，这一理念又经历了大约十年的工业探索，最终在理想L9上首次落地。

三、马赫100，理想怎么把大模型搬上车？

当理想在2022年启动自研芯片计划时，他们面临一个核心选择：继续依赖通用GPU，还是打造一颗专门为大规模AI计算设计的芯片。

Orin曾是当时的顶尖选择，但它更像一辆多用途轿车，通用而灵活，却无法在高频低延迟的大模型推理上发挥最大潜力。理想决定打造马赫100——一颗为数据流架构量身设计的芯片，让架构与硬件紧密协作，最大化大模型和自动驾驶场景的效率。

在芯片的硬件设计上，马赫100采用了Chiplet模块化设计。

简单来说，芯片被拆分成多个功能模块，每个模块承担计算、控制或缓存任务，通过高速互联协同工作。

这种设计不是简单堆叠多个SOC，而是像把一座复杂工厂分成若干车间，每个车间各司其职，同时通过高效调度保证整体顺畅。Chiplet设计带来的优势有：

提高良率：每个模块单独测试，降低整片报废风险；
灵活迭代：某些模块升级或优化无需重做全芯片；
扩展性强：多模块协作轻松增加算力。

AMD于2019 年发布的Ryzen 3000系列（Zen 2 架构）就是Chiplet设计的经典产品，将核心计算部分和I/O部分分成不同的芯片粒（Chiplet），再通过内部高速互联组合成一颗完整处理器。与Intel当时主推的Core i9‑9900K等传统单片设计相比较，Ryzen 3000系列凭借模块化设计在性能、能效比和制造良率上取得明显优势，也帮助AMD在桌面CPU市场迅速提升竞争力。

同样的架构理念也体现在马赫100身上。Chiplet让马赫100在车规工艺要求、高算力、高可靠性条件下保持模块化协作，让设计复杂度可控、制造风险降低。在此基础上，马赫100能够在后续的数据流优化中发挥更高的资源利用效率。

相较于Thor U，马赫100的Chiplet模式为它提供了更好的扩展性和灵活性，并为后续的数据流架构优化打下了物理基础。

在芯片架构之外，马赫100最核心创新在于编排式数据流架构。

数据流架构的核心理念是：计算单元像自发行动的员工，只要数据到位，就立即处理，无需等待上级指令。

然而，复杂神经网络中上亿条数据依赖的流动，就会产生“令牌路由开销”。可以把它想象成一个巨大的物流中心：如果每件包裹都要临时找路径、排队、确认位置，整体效率就会被拖慢。

马赫100的创新是把数据流路径和处理时序提前规划到编译阶段——就像提前为物流中心规划好所有路线和调度表，每个计算单元都知道自己何时、处理哪条数据，运行时无需再查路线，也不会互相冲突。

这种“编排式数据流”设计带来显著优势：