亚马逊 AWS 于三月向 TechCrunch 独家开放了其位于德克萨斯州奥斯汀 “The Domain” 区的 Trainium 芯片开发实验室。此次参观正值 AWS 宣布向 OpenAI 投入五百亿美元资金之后,旨在展示其自研芯片如何支撑这一巨额合作。实验室负责人 Kristopher King 与 Mark Carroll 带领记者深入了解了从硅片制造到服务器部署的全过程,揭示了亚马逊在 AI 硬件领域的野心。
根据协议,AWS 将向 OpenAI 提供两吉瓦的 Trainium 计算能力,作为 OpenAI 新 AI 代理构建器 Frontier 的独家云提供商。这一承诺规模巨大,因为 Anthropic 和亚马逊自身的 Bedrock 服务已经消耗了超出亚马逊生产能力的 Trainium 芯片。《金融时报》报道称,微软可能认为该交易违反了其自身与 OpenAI 的协议,存在法律模糊地带,但 AWS 坚持其合规性。
目前,超过一百四十万颗 Trainium 芯片已部署在三代产品中,其中 Anthropic 的 Claude 模型运行在超过一百万颗 Trainium2 芯片上。尽管 Trainium 最初主要针对模型训练,但现在已调整为兼顾推理任务,因为推理是当前的最大性能瓶颈。King 表示,客户群扩张速度极快,Bedrock 服务未来可能达到 EC2 计算服务的规模,成为企业应用的核心。
亚马逊声称,运行在新型 Trn3 UltraServers 上的 Trainium 芯片,其同等性能下的运行成本比传统云服务器低百分之五十。该芯片采用台积电制造的 3 纳米工艺,并伴随新设计的 Neuron 交换机,允许芯片以网状配置互联,从而显著降低延迟。Carroll 指出,这种组合在“每瓦价格”方面打破了多项记录,对于大规模部署至关重要,能够处理数万亿令牌。
随着每天涉及数万亿个令牌的处理量,能效和延迟的微小改善都能产生巨大影响。2024 年,苹果曾公开赞扬该团队设计的 Graviton 和 Inferentia 芯片,并提及 Trainium,这是罕见的开放时刻。这代表了亚马逊典型的商业策略:观察市场需求,然后构建更具价格竞争力的内部替代品,以打破供应商锁定。
历史上,芯片最大的障碍在于转换成本,但 AWS 团队表示 Trainium 现在支持 PyTorch 开源框架。Carroll 透露,迁移过程通常只需“基本上一行代码更改,然后重新编译并运行”,包括许多 Hugging Face 上的模型。这表明亚马逊正试图在尽可能多的领域蚕食英伟达的市场主导地位,降低开发者切换门槛,这一兼容性大幅减少了开发者的迁移负担。
位于奥斯汀 “The Domain” 区的实验室是一个充满工业噪音的空间,工程师们穿着牛仔裤而非白大褂工作。这里是芯片“上线”的关键场所,团队在此验证新芯片是否按设计工作。King 回忆称,Trainium3 原型机曾因散热尺寸问题无法激活,团队最终通过研磨金属解决了问题,甚至为此在会议室偷偷工作。
除了芯片设计,该团队还负责包含 Nitro 虚拟化技术和液冷技术的服务器系统开发。亚马逊收购 Annapurna Labs 已超过十年,该团队保留了其名称和标志,并在奥斯汀设有自己的测试数据中心。目前,工程师们正着手设计下一代 Trainium4,而 Anthropic 仍是当前最大的部署用户,项目 Rainier 拥有五十万颗芯片。
尽管 OpenAI 合作备受关注,但实验室里的工程师们表示日常工作仍聚焦于 Anthropic 和亚马逊内部需求。AWS 计划整合 Cerebras Systems 的推理芯片,以提供超低延迟的人工智能性能。这一系列动作表明,云计算巨头正试图从硬件底层重塑人工智能基础设施的格局,从而为行业带来更低的成本和更高的效率,挑战英伟达的垄断。