随着大模型运行成本竞争日益激烈,微软正式推出第二代自研AI芯片Maia 200。与早期聚焦训练任务的硬件不同,这款新芯片专门针对持续向用户提供AI响应的推理过程设计。
推理正成为AI公司日益增长的成本项。随着聊天机器人和智能副驾服务扩展到数百万用户,模型必须持续不间断运行。微软表示Maia 200正是为应对这种转变而生。该芯片本周已在微软爱荷华州数据中心投入使用,亚利桑那州的第二处部署也已规划。
专为规模化推理设计
Maia 200在2023年发布的Maia 100基础上实现重大性能飞跃。微软透露这款芯片集成超1000亿晶体管,在4位精度下可提供超过10 PetaFLOPS算力,8位精度下达到约5 PetaFLOPS。这些指标针对实际工作负载而非训练基准,推理任务需要速度、稳定性与能效的平衡。微软表示单个Maia 200节点即可运行当前最大AI模型,并为未来扩展预留空间。
芯片设计反映了现代AI服务的运行特点:即使面对流量峰值,聊天机器人也必须快速响应。为满足这种需求,Maia 200内置大量静态随机存储器——这种高速内存可降低重复查询时的延迟。多家新兴AI硬件厂商都采用大内存设计策略,微软似乎也通过这种方式提升规模化服务的响应能力。
挑战行业生态格局
Maia 200还承载着战略使命。据报道,主要云服务商希望降低对英伟达的依赖——该公司的GPU目前主导着AI基础设施市场。虽然英伟达在性能上仍保持领先,但其硬件和软件生态影响着全行业定价与供应格局。谷歌已通过云端提供张量处理单元,亚马逊云科技则推广其Trainium和Inferentia芯片,微软如今通过Maia芯片加入这场竞争。
微软直接进行了性能对比:宣称Maia 200的FP4性能是亚马逊第三代Trainium芯片的三倍,FP8性能也优于谷歌最新TPU。与英伟达即将推出的Vera Rubin处理器类似,Maia 200采用台积电3纳米制程制造,并搭载高带宽内存(虽落后于英伟达下一代芯片的存储技术)。
软件生态补足短板
微软在发布芯片同时推出了新开发者工具,旨在缩小长期由英伟达软件生态建立的优势。关键工具之一是开源框架Triton,它能帮助开发者编写高效AI代码,OpenAI对该项目有重要贡献。微软将Triton定位为替代英伟达主流编程平台CUDA的方案。
Maia 200目前已应用于微软自有AI服务中,公司称其支持超级智能团队研发的模型,并为Copilot提供算力支持。微软还邀请开发者、学术机构及前沿AI实验室测试Maia 200软件开发套件。通过Maia 200,微软展现出AI基础设施领域的重大转向:更快的芯片固然重要,但对软件与部署生态的掌控正变得同样关键。
19 0
登陆后参与评论
2026-01-27 09:47:38
2026-01-27 09:40:40
2026-01-27 09:33:35
2026-01-26 09:32:12
2026-01-26 09:30:24
2026-01-26 09:27:26
2026-01-26 09:21:44
2026-01-26 09:09:41
2026-01-23 09:50:43
2026-01-23 09:40:09
2026-01-23 09:36:55
2026-01-22 08:48:50