OpenAI o1占领后训练扩展律前沿,从快速识别走向深度思考 | 投研报告

来源:中国能源网2024年09月25日 08:36

天风证券近日发布通信行业专题研究:OpenAI o1占领后训练扩展律前沿,从快速识别走向深度思考。

 以下为研究报告摘要: 

o1模型通过强化学习训练和产生思维链,能在做出响应前花更多时间思考问题

9月12日,OpenAI发布一系列新大语言模型o1,经过强化学习(Reinforcement Learning)训练,可以执行复杂推理,该模型可以产生一个长程思维链(Chain of Thought),在做出响应前花更多时间思考问题。

新模型包括o1-preview和o1-mini两种版本,其中o1-mini更快、更具成本效益,适用于需要推理但不需要广泛知识的应用程序

o1-mini是一个较小的模型,针对预训练期间的STEM推理进行了优化。速度方面,在单词推理问题回答中o1-mini找到答案的速度比o1-preview大约快了3~5倍;成本方面,OpenAI向第五梯队API用户开放的o1-mini成本端比o1-preview便宜80%。

o1通用性不及GPT-4o,高推理能力伴随高成本

作为早期模型,o1并不具备浏览网页、上传文件和图像等功能,通用性尚不及GPT-4o。但相较于GPT-4o多模态、反应快等特点,o1-preview更加注重推理能力,输入、输出tokens成本分别是GPT-4o的3、4倍。

o1在数理化复杂问题推理中的性能明显优于GPT-4o,在物理和生物学专业知识基准上的表现超越人类博士

o1在竞争性编程问题(Codeforces)中拿到89%的百分位,GPT-4o仅为11%;在国际数学奥林匹克竞赛(IMO)的资格考试中,o1解答正确率为83%,而GPT-4o正确率仅为13%;在安全方面,o1在越狱测试中的分数高达84,而GPT-4o的得分仅为22分。

后训练扩展律(Post-Training Scaling Law)显现,或将引发业界对算力重新分配、后训练能力的思考

o1模型的亮点在于其性能会随着强化学习时间(训练时间的计算量)和思考时间(测试时间的计算量)的增加而不断提升,扩展这种方法的限制与传统LLM预训练方法(通过增加参数量和数据量)的限制有着很大不同,后训练方法的重要性或将引发业界对算力分配、后训练能力的思考。

从快速反应走向深度思考,拓宽行业应用场景

o1在训练过程中能够使其思维链进行高效思考,模拟了人类在面对复杂问题时的思考过程,这预示着AI除了在快系统中可被应用(人脸识别等),在慢系统中的可用型或将得到提升。

快慢系统结合或将成为新的AI发展战略,OpenAI、Google占据前沿阵地Google DeepMind在此前论文中提出测试时的计算比扩展模型参数更有效;AlphaGeometry模型在国际数学奥林匹克(IMO)几何问题的基准测试中解决了25个问题(总共30个问题),AlphaGeometry由神经语言模型和符号推导引擎组成,将快慢系统结合,一个系统提供快速、直观的想法,另一个系统则提供更深思熟虑、更理性的决策。

风险提示:AI应用发展不及预期风险;海外大厂投资不及预期风险;中美摩擦升级风险。(天风证券 唐海清,王奕红,余芳沁 )

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

 

【责任编辑:肖洁】

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

守牢大国能源“饭碗” 铸强矿山革新“引擎”——武强院士解码新时代能源保障与转型之路
上海市监局回应韩束被曝添加禁用成分:进一步核实调查中
能源奋楫·强国鼎新——扬帆“十五五” 开局最“一线”
运满满到货加价2600 中途为何多了一手?

精彩图集

再访美军空袭后的拉瓜伊拉港
华盛顿举行反对联邦执法人员暴力执法抗议活动
首批下穿太湖超大直径盾构机下线
沪宁合高铁南京特大桥跨滁河斜拉桥顺利合龙
OpenAI o1占领后训练扩展律前沿,从快速识别走向深度思考 | 投研报告
分享到: