xiand.ai
科技

亚马逊 Trainium 芯片实验室揭秘:挑战英伟达垄断地位

亚马逊 AWS 近日向外界展示了其核心的 Trainium 芯片实验室,并确认 OpenAI 与 Anthropic 均大规模采用该技术。随着五十亿美元投资协议的落地,AWS 正试图通过降低推理成本来削弱英伟达在人工智能计算领域的垄断。

La Era

1 分钟阅读

Amazon Trainium Lab Tour Reveals OpenAI Deal Details and Nvidia Competition
Amazon Trainium Lab Tour Reveals OpenAI Deal Details and Nvidia Competition
Publicidad

亚马逊 AWS 于三月向 TechCrunch 独家开放了其位于德克萨斯州奥斯汀 “The Domain” 区的 Trainium 芯片开发实验室。此次参观正值 AWS 宣布向 OpenAI 投入五百亿美元资金之后,旨在展示其自研芯片如何支撑这一巨额合作。实验室负责人 Kristopher King 与 Mark Carroll 带领记者深入了解了从硅片制造到服务器部署的全过程,揭示了亚马逊在 AI 硬件领域的野心。

根据协议,AWS 将向 OpenAI 提供两吉瓦的 Trainium 计算能力,作为 OpenAI 新 AI 代理构建器 Frontier 的独家云提供商。这一承诺规模巨大,因为 Anthropic 和亚马逊自身的 Bedrock 服务已经消耗了超出亚马逊生产能力的 Trainium 芯片。《金融时报》报道称,微软可能认为该交易违反了其自身与 OpenAI 的协议,存在法律模糊地带,但 AWS 坚持其合规性。

目前,超过一百四十万颗 Trainium 芯片已部署在三代产品中,其中 Anthropic 的 Claude 模型运行在超过一百万颗 Trainium2 芯片上。尽管 Trainium 最初主要针对模型训练,但现在已调整为兼顾推理任务,因为推理是当前的最大性能瓶颈。King 表示,客户群扩张速度极快,Bedrock 服务未来可能达到 EC2 计算服务的规模,成为企业应用的核心。

亚马逊声称,运行在新型 Trn3 UltraServers 上的 Trainium 芯片,其同等性能下的运行成本比传统云服务器低百分之五十。该芯片采用台积电制造的 3 纳米工艺,并伴随新设计的 Neuron 交换机,允许芯片以网状配置互联,从而显著降低延迟。Carroll 指出,这种组合在“每瓦价格”方面打破了多项记录,对于大规模部署至关重要,能够处理数万亿令牌。

随着每天涉及数万亿个令牌的处理量,能效和延迟的微小改善都能产生巨大影响。2024 年,苹果曾公开赞扬该团队设计的 Graviton 和 Inferentia 芯片,并提及 Trainium,这是罕见的开放时刻。这代表了亚马逊典型的商业策略:观察市场需求,然后构建更具价格竞争力的内部替代品,以打破供应商锁定。

历史上,芯片最大的障碍在于转换成本,但 AWS 团队表示 Trainium 现在支持 PyTorch 开源框架。Carroll 透露,迁移过程通常只需“基本上一行代码更改,然后重新编译并运行”,包括许多 Hugging Face 上的模型。这表明亚马逊正试图在尽可能多的领域蚕食英伟达的市场主导地位,降低开发者切换门槛,这一兼容性大幅减少了开发者的迁移负担。

位于奥斯汀 “The Domain” 区的实验室是一个充满工业噪音的空间,工程师们穿着牛仔裤而非白大褂工作。这里是芯片“上线”的关键场所,团队在此验证新芯片是否按设计工作。King 回忆称,Trainium3 原型机曾因散热尺寸问题无法激活,团队最终通过研磨金属解决了问题,甚至为此在会议室偷偷工作。

除了芯片设计,该团队还负责包含 Nitro 虚拟化技术和液冷技术的服务器系统开发。亚马逊收购 Annapurna Labs 已超过十年,该团队保留了其名称和标志,并在奥斯汀设有自己的测试数据中心。目前,工程师们正着手设计下一代 Trainium4,而 Anthropic 仍是当前最大的部署用户,项目 Rainier 拥有五十万颗芯片。

尽管 OpenAI 合作备受关注,但实验室里的工程师们表示日常工作仍聚焦于 Anthropic 和亚马逊内部需求。AWS 计划整合 Cerebras Systems 的推理芯片,以提供超低延迟的人工智能性能。这一系列动作表明,云计算巨头正试图从硬件底层重塑人工智能基础设施的格局,从而为行业带来更低的成本和更高的效率,挑战英伟达的垄断。

Publicidad

评论

评论存储在您的浏览器本地。

Publicidad