IT之家 6 月 13 日消息,AMD 在北京时间今日凌晨 00:30 举办了其年度人工智能直播活动 Advancing AI 2025,AMD 董事长兼首席执行官苏姿丰同其它高管以及 AI 生态系统合作伙伴、客户、开发人员一起,共同讨论了 AMD 的产品和软件如何重塑 AI 和高性能计算(HPC)格局。
在本次大会上,AMD 展示了其全面的端到端集成人工智能平台愿景,并推出了全新基于行业标准的开放、可扩展的机架级人工智能基础设施产品。
首先,AMD 推出了全新一代 Instinct MI350 系列 GPU,在生成式人工智能和高性能计算的性能、效率和可扩展性方面得到全面提升。
Instinct MI350 系列包括 Instinct MI350X 和 MI355X GPU 及平台,实现了每代 4 倍的 AI 计算能力提升和 35 倍的推理性能飞跃。
新的 GPU 基于 AMD CDNA 4 架构,3nm 制程工艺打造,集成了 1850 亿个晶体管,支持 FP4 & FP6 新一代 AI 数据类型,可提供 288GB HBM3E 显存,支持单 GPU 上运行高达 520B 参数的 AI 模型,支持 UBB8 行业标准 GPU 节点,提供风冷和直液冷两种版本,可以帮助企业实现快速部署基础设施。
AMD Instinct MI355X GPU 在 AI 和 HPC 领域性能有出色表现,根据 AMD 的介绍,在与 NVIDIA B200 和 GB200 的对比中:
在内存容量方面,MI355X 约为竞品的 1.6 倍,内存带宽则基本持平。
针对 FP64 和 FP32 运算,MI355X 的峰值性能接近竞品的两倍。
对于 FP16 和 FP8 运算,其峰值性能与竞品相当或略高,FP6 性能则达到 2 倍以上。
在 FP4 运算上,MI355X 与竞品的峰值性能相近,小幅领先。
另外相比 B200,使用 Instinct MI355X 可获得 40% Tokens/$ 性价比提升。
而在和上一代 MI300X 的对比中,MI355X 运行 Llama 3.1 405B 模型,在 AI 智能体性能表现上是前者的 4.2 倍,内容生成能力是上一代 MI300X 的 2.9 倍,摘要能力是上一代的 3.8 倍,对话式人工智能表现则为 2.6 倍。
AMD 表示,Instinct MI350 系列超出了 AMD 设定的五年目标,即将 AI 训练和高性能计算节点的能效提高 30 倍,最终实现了 38 倍的提升。
AMD Instinct MI350 系列提供基于开放标准的机架基础设施和网络解决方案。
该系列产品支持 UEC、OCP 设计,搭载 Instinct GPU 与第五代 EPYC x86 CPU,不同配置包括 128 颗 GPU、96 颗 GPU 和 64 颗 GPU,分别具备 36TB、27TB 和 18TB HBM3E 内存,性能指标涵盖 FP8、FP6 和 FP4 精度,适用于大规模机架扩展方案,预计从 Q3 开始通过 AMD 解决方案合作伙伴提供相关产品。
IT之家从活动获悉,AMD 还预告了其下一代 AI 机架架构“Helios”。它将基于下一代 AMD Instinct MI400 系列 GPU、基于“Zen 6”架构的 AMD EPYC “Venice” CPU 以及 AMD Pensando “Vulcano”网卡构建。
同时 AMD 更预告了 Instinct MI400 系列 GPU,预计 2026 年上市。该系列配备 432GB HBM4 显存,带宽达 19.6TB/s,每 GPU 扩展带宽为 300GB/s;提供 40PF FP4 和 20PF FP8 的 AI 计算性能,延续 MI300X、MI325X 等系列优势。
AMD 还公布了一个新的 2030 年目标,即从 2024 年基准年起,将机架级能效提高 20 倍,届时,现在需要超过 275 个机架才能训练的典型 AI 模型,在 2030 年时仅需一个完全利用的机架即可完成训练,同时耗电量减少 95%。
此外最新版本的 AMD 开源 AI 软件栈 ROCm 7 也受到了不少网友的关注,其旨在满足生成式人工智能和高性能计算工作负载不断增长的需求 —— 同时全面提升开发者体验。ROCm 7 具有改进的行业标准框架支持、扩展的硬件兼容性以及新的开发工具、驱动程序、API 和库,以加速 AI 的开发和部署。
最后值得一提的是,AMD 将为面向全球开发者和开源社区的 AMD 开发者云带来更广泛的使用权限。该平台专为快速、高性能的 AI 开发而构建,用户在 AMD 开发者云上将能够访问一个完全托管的云环境,包括拥有启动 AI 项目所需的工具和灵活性,并能够无限制扩展。