每秒每 GPU 处理 8064 个词元:英伟达刷新 DeepSeek-R1 推理速度纪录

来源:IT之家2026年04月02日 14:44

科技媒体 Wccftech 昨日(4 月 1 日)发布博文,报道称在被誉为“AI 界最严苛大考”的 MLPerf v6.0 AI 推理基准测试中,英伟达再次交出满分答卷。

相比较此前的 v5.1 版本,本月(2026 年 4 月)发布的 MLPerf v6.0 引入了多种前沿的生成式 AI 模型,并重点升级推理交互性和大规模多节点系统。

IT之家援引英伟达新闻稿,MLPerf v6.0 为反映当前 AI 工业界的真实应用趋势,引入了多个模型,并重点考察了密集型大语言模型和视觉语言模型:

  • GPT-OSS-120B:新增的大型开源权重语言模型,专注于数学、科学推理和代码编写能力测试。

  • DeepSeek-R1 交互模式:在 v5.1 引入 DeepSeek-R1 后,v6.0 增加了交互式场景(Interactive scenario)。该场景对首字响应时间(TTFT)和每 Token 速率有更高要求,更贴近真实聊天机器人体验。

  • Qwen3-VL-235B:该套件中首个多模态视觉语言模型(VLM),用于测试将非结构化多模态数据转换为结构化元数据的能力。

  • WAN-2.2(Text-to-Video):套件中首个文生视频基准测试。考虑到生成视频的计算量极大,该测试弃用了传统的 Server 模式,改用 SingleStream 模式以更准确地衡量延迟。

  • DLRMv3:第三代推荐系统基准,由 Meta 贡献,从传统的 DCNv2 升级为基于 Transformer 的架构,提升了模型规模和计算强度。

  • YOLOv11 Large:针对边缘计算场景,将目标检测基准更新为 Ultralytics 的最新 YOLOv11 模型。

官方最新公布的 MLPerf 推理 v6.0 测试结果显示,英伟达凭借 Blackwell Ultra 架构(GB300 NVL72),实现了全方位的性能碾压,其 AI 推理成绩不仅位列第一,其推理训练 Wins 数量更领先最接近的竞争对手 9 倍。

在备受瞩目的 DeepSeek-R1 服务器端测试中,英伟达交出了每秒每 GPU 处理 8064 个词元(token)的成绩。与之前的 v5.1 版本相比,处理速度大幅飙升 2.77 倍。

此外,在 Llama 3.1 405B 模型的服务器与离线测试中,英伟达也分别实现了 1.52 倍和 1.21 倍的性能提升。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

雷鸟电视被指虚假宣传,消费者曝光“维权被要求签保密协议”
新型电力系统下的机遇与答案
绿色算力筑底强基 智造升级向新而行——中外记者团探访中国(内蒙古)自由贸易试验区呼和浩特片区内蒙古和林格尔新区产业高地
国家能源局发布51个“人工智能+能源”高价值场景并组织场景开放试点

精彩图集

核电送出特高压工程开展高空作业
中国成功发射通信技术试验卫星二十六号A星
世界杯成为民众表达不满的契机,墨西哥迎来抗议浪潮
渤海首个千亿方大气田Ⅱ期开发项目主体结构建造完成
每秒每 GPU 处理 8064 个词元:英伟达刷新 DeepSeek-R1 推理速度纪录
分享到: