亚马逊 Trainium 芯片实验室揭秘：挑战英伟达垄断地位

亚马逊 AWS 于三月向 TechCrunch 独家开放了其位于德克萨斯州奥斯汀 “The Domain” 区的 Trainium 芯片开发实验室。此次参观正值 AWS 宣布向 OpenAI 投入五百亿美元资金之后，旨在展示其自研芯片如何支撑这一巨额合作。实验室负责人 Kristopher King 与 Mark Carroll 带领记者深入了解了从硅片制造到服务器部署的全过程，揭示了亚马逊在 AI 硬件领域的野心。

根据协议，AWS 将向 OpenAI 提供两吉瓦的 Trainium 计算能力，作为 OpenAI 新 AI 代理构建器 Frontier 的独家云提供商。这一承诺规模巨大，因为 Anthropic 和亚马逊自身的 Bedrock 服务已经消耗了超出亚马逊生产能力的 Trainium 芯片。《金融时报》报道称，微软可能认为该交易违反了其自身与 OpenAI 的协议，存在法律模糊地带，但 AWS 坚持其合规性。

目前，超过一百四十万颗 Trainium 芯片已部署在三代产品中，其中 Anthropic 的 Claude 模型运行在超过一百万颗 Trainium2 芯片上。尽管 Trainium 最初主要针对模型训练，但现在已调整为兼顾推理任务，因为推理是当前的最大性能瓶颈。King 表示，客户群扩张速度极快，Bedrock 服务未来可能达到 EC2 计算服务的规模，成为企业应用的核心。

亚马逊声称，运行在新型 Trn3 UltraServers 上的 Trainium 芯片，其同等性能下的运行成本比传统云服务器低百分之五十。该芯片采用台积电制造的 3 纳米工艺，并伴随新设计的 Neuron 交换机，允许芯片以网状配置互联，从而显著降低延迟。Carroll 指出，这种组合在“每瓦价格”方面打破了多项记录，对于大规模部署至关重要，能够处理数万亿令牌。

随着每天涉及数万亿个令牌的处理量，能效和延迟的微小改善都能产生巨大影响。2024 年，苹果曾公开赞扬该团队设计的 Graviton 和 Inferentia 芯片，并提及 Trainium，这是罕见的开放时刻。这代表了亚马逊典型的商业策略：观察市场需求，然后构建更具价格竞争力的内部替代品，以打破供应商锁定。

历史上，芯片最大的障碍在于转换成本，但 AWS 团队表示 Trainium 现在支持 PyTorch 开源框架。Carroll 透露，迁移过程通常只需“基本上一行代码更改，然后重新编译并运行”，包括许多 Hugging Face 上的模型。这表明亚马逊正试图在尽可能多的领域蚕食英伟达的市场主导地位，降低开发者切换门槛，这一兼容性大幅减少了开发者的迁移负担。

位于奥斯汀 “The Domain” 区的实验室是一个充满工业噪音的空间，工程师们穿着牛仔裤而非白大褂工作。这里是芯片“上线”的关键场所，团队在此验证新芯片是否按设计工作。King 回忆称，Trainium3 原型机曾因散热尺寸问题无法激活，团队最终通过研磨金属解决了问题，甚至为此在会议室偷偷工作。

除了芯片设计，该团队还负责包含 Nitro 虚拟化技术和液冷技术的服务器系统开发。亚马逊收购 Annapurna Labs 已超过十年，该团队保留了其名称和标志，并在奥斯汀设有自己的测试数据中心。目前，工程师们正着手设计下一代 Trainium4，而 Anthropic 仍是当前最大的部署用户，项目 Rainier 拥有五十万颗芯片。

尽管 OpenAI 合作备受关注，但实验室里的工程师们表示日常工作仍聚焦于 Anthropic 和亚马逊内部需求。AWS 计划整合 Cerebras Systems 的推理芯片，以提供超低延迟的人工智能性能。这一系列动作表明，云计算巨头正试图从硬件底层重塑人工智能基础设施的格局，从而为行业带来更低的成本和更高的效率，挑战英伟达的垄断。

亚马逊 Trainium 芯片实验室揭秘：挑战英伟达垄断地位

标签

评论

继续阅读

更多科技

科技行业客户服务体验对比大型企业 vs 初创公司差异分析

Delve 被指伪造合规证明，客户面临法律风险与数据泄露

CERN 将 AI 算法固化为芯片硬件以过滤海量粒子对撞数据

最新消息

Half Sword Games 回应 Steam 评价分歧：早期测试版与最终版本存在差异

个人开发者利用 AI 代理分析 25 年鸡蛋收据数据

时光之轮推出全新动画与手游，与现有开放世界 RPG 项目并行开发

亚马逊 Trainium 芯片实验室揭秘：挑战英伟达垄断地位

标签

评论

继续阅读

更多科技

科技行业客户服务体验对比 大型企业 vs 初创公司差异分析

Delve 被指伪造合规证明，客户面临法律风险与数据泄露

CERN 将 AI 算法固化为芯片硬件以过滤海量粒子对撞数据

最新消息

Half Sword Games 回应 Steam 评价分歧：早期测试版与最终版本存在差异

个人开发者利用 AI 代理分析 25 年鸡蛋收据数据

时光之轮推出全新动画与手游，与现有开放世界 RPG 项目并行开发

科技行业客户服务体验对比大型企业 vs 初创公司差异分析