新测试表明 AI 实际办公准确率不足 25%,但进展比想象更快

来源:IT之家2026年01月26日 14:04

Digital Trends 24 日报道,一项由训练数据公司 Mercor 发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过 25%,研究表明 AI 在短期内难以替代人类知识工作者

该研究基于 Mercor 新推出的 APEX-Agents 基准进行测试,有别于传统上通过写诗和解数学题为主的 AI 评估方法,该基准测试直接采用律师、顾问和银行家的真实工作流,要求受试模型完成横跨多个信息来源的多步骤综合任务。

结果显示,即使是市场上明显处于领先地位的模型也无法达到 25% 的准确率,测试中成绩领先的 Gemini 3 Flash 和 GPT-5.2,其准确率也仅为 24% 和 23%,而其他大多数受试模型的成绩则不高于 20%。

为何 AI 会在“办公测试”中失败?Mercor 首席执行官 Brendan Foody 分析称,AI 失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散资源,比如查看日程,翻阅即时通讯记录、阅读 PDF 文档和电子表格,而 AI 在跨源信息搜索与整理时容易混淆、出错,要么干脆放弃。这导致目前的 AI 在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员

IT之家附 APEX-Agents 准确率测试结果如下(排名从高到低):

  • Gemini 3 Flash (High) - 24.0%

  • GPT-5.2 (High) - 23.0%

  • Claude Opus 4.5 (High) - 18.4%

  • Gemini 3 Pro (High) - 18.4%

  • GPT-5 (High) - 18.3%

  • Grok 4 - 15.2%

  • GPT-OSS-120B (High) - 4.7%

  • Kimi K2 Thinking - 4.0%

尽管表现有限,但 AI 的进步引人关注。Foody 指出,一年前同类测试的准确率仅为 5%-10%,如今已提升至 24%,AI 的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换之前,AI 尚无法胜任复杂的知识工作。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

雷鸟电视被指虚假宣传,消费者曝光“维权被要求签保密协议”
新型电力系统下的机遇与答案
绿色算力筑底强基 智造升级向新而行——中外记者团探访中国(内蒙古)自由贸易试验区呼和浩特片区内蒙古和林格尔新区产业高地
国家能源局发布51个“人工智能+能源”高价值场景并组织场景开放试点

精彩图集

核电送出特高压工程开展高空作业
中国成功发射通信技术试验卫星二十六号A星
世界杯成为民众表达不满的契机,墨西哥迎来抗议浪潮
渤海首个千亿方大气田Ⅱ期开发项目主体结构建造完成
新测试表明 AI 实际办公准确率不足 25%,但进展比想象更快
分享到: