o1进展追踪与评测：Reasoning能力究竟有多强？

o1进展追踪与评测：Reasoning能力究竟有多强？ | 投研报告

来源：中国能源网 2024年09月20日 09:15

2024-09-20 09:15 来源：中国能源网

中泰证券近日发布计算机行业：o1进展追踪与评测：Reasoning能力究竟有多强？

以下为研究报告摘要：

o1模型带来推理能力的大幅提升，在数学、编程和科学问题中表现最好，有望加速相关应用落地。OpenAI发布o1模型，开放o1-preview和o1-mini版本给用户，o1-preview版本推理能力更强，o1-mini速度更快，价格便宜80%。GPQAdiamond测试中，o1的表现超过了博士学位的人类专家；在我们的测试中，o1在推理类问题中表现普遍较4o更好，但在写作任务中表现接近。我们认为，o1在推理能力上的提升有助于解决复杂逻辑问题，将进一步加速相关应用落地。

o1的内部CoT过程大幅提升推理算力要求，对其提问次数限制更严格、定价更高，推理算力需求或将攀升。此次发布模型对用户提问次数有较大限制，Plus和Team用户可使用，o1-preview/o1-mini每周发送消息条数限制为30/50条。o1的模型定价为输入$15/1Mtokens，输出$60/1Mtokens；较gpt-4o输入$5/1Mtokens，输出$15/1Mtokens定价更高。

训练方式采用强化学习加强CoT，scalinglaw是否依旧是模型主流迭代方向还需验证追踪。通过强化学习，o1能够改进其CoT过程，不断分解问题、纠错和尝试其他可行的解决办法，思考过程类似人类。随着强化学习（训练时间）的增加和思考（测试时间）的增加，o1的性能会持续提高。这种提升性能的方式与scalinglaw扩大预训练规模的方式有所不同，强化学习+CoT或将成为模型迭代的新范式。

风险提示：AI技术落地不及预期、数据更新不及时、安全风险等（中泰证券闻学臣）

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

【责任编辑：肖洁】

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com

投稿与新闻线索: 微信/手机: 15910626987邮箱: 95866527@qq.com

欢迎关注中国能源官方网站

分享让更多人看到

中国能源网版权作品，未经书面授权，严禁转载或镜像，违者将被追究法律责任。

即时新闻

加载更多新闻

为你推荐

加载更多