OpenAI推出音频模型，腾讯发布混元T1

OpenAI推出音频模型，腾讯发布混元T1 | 投研报告

来源：中国能源网 2025年03月24日 10:19

2025-03-24 10:19 来源：中国能源网

太平洋证券近日发布传媒互联网行业周报：OpenAI推出音频模型，腾讯发布混元T1。

以下为研究报告摘要：

报告摘要

OpenAI推出3款音频模型，实现语音情绪自定义

OpenAI推出全新语音转文本模型gpt-4o-transcribe和轻量版gpt-4o-mini-transcribe，以及文本生成语音模型gpt-4o-mini-tts。其中，语音转文本模型gpt-4o-transcribe基于GPT-4o架构，运用音频数据集进行大量预训练，较此前推出的Whisper拥有更准确的识别能力，尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看，该模型在大多数主要语言上的表现都优于其他模型，获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts除了文本转语音功能外，还可在固定音色的基础上，实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择，生成不同情绪的语音内容。

目前，上述三款模型均已开放API，为全球开发者构建语音Agent提供支持；且定价较低，分别为0.6美分/分钟、0.3美分/分钟、15美分/分钟。从应用场景来看，模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司，如：1）智能客服或助手：焦点科技；2）广告营销：因赛集团、引力传媒、蓝色光标、天娱数科；3）教育：佳发教育、科大讯飞；4）情感陪伴应用/玩具：恺英网络、奥飞娱乐；5）影视：华策影视、博纳影业；6）游戏：巨人网络、掌趣科技等。

腾讯发布混元T1模型，实现超长文本推理、解码速度提升腾讯发布自研深度思考模型混元T1正式版，该模型具有超长文本推理强、生成速度快的优势。从性能来看：1）超长文本：通过架构优化，有效解决长文推理中常见的上下文丢失和长距离信息依赖问题，强化T1长文本捕捉和推理能力。2）解码速度：通过长序列处理的专项优化，实现相近参数量下解码速度提升2倍，达到首字秒出、吐字速度高达60-80token/s。从测评结果来看，T1在MMLU-pro、AIME等数学、逻辑推理测试中，成绩达到业界领先水平。从成本来看：T1沿用了混元Turbo S的Hybrid-Mamba-Transformer混合架构，有效降低Transformer架构的计算复杂度，实现训练和推理成本下降。从API定价来看：模型每百万tokens输入1元，输出4元；与DeepSeek-R1优惠时段一致，仅为标准时段价格的1/4（输入价格对比缓存未命中）。

核心观点

我们认为，音频模型gpt-4o-mini-tts通过用户自定义语音情绪、语调、语速等，使得语音生成更灵活、更高效匹配不同场景的应用需求。利好拥有相关应用场景的公司，如电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注：1）AI+广告营销：因赛集团、天娱数科；2）AI+影视：博纳影业；3）AI+游戏：恺英网络、巨人网络等。此外，国内推理模型持续迭代，腾讯自研混元T1进一步提升模型推理、超长文本处理、生成速度等能力，有效降低模型成本。

风险提示

AI技术发展不及预期的风险、政策监管的风险、行业竞争加剧的风险。（太平洋郑磊,李林卉）

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

【责任编辑：肖洁】

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com

投稿与新闻线索: 微信/手机: 15910626987邮箱: 95866527@qq.com

欢迎关注中国能源官方网站

分享让更多人看到

中国能源网版权作品，未经书面授权，严禁转载或镜像，违者将被追究法律责任。

即时新闻

加载更多新闻

为你推荐

加载更多