太平洋证券近日发布传媒互联网行业周报:OpenAI推出音频模型,腾讯发布混元T1。
以下为研究报告摘要:
报告摘要
OpenAI推出3款音频模型,实现语音情绪自定义
OpenAI推出全新语音转文本模型gpt-4o-transcribe和轻量版gpt-4o-mini-transcribe,以及文本生成语音模型gpt-4o-mini-tts。其中,语音转文本模型gpt-4o-transcribe基于GPT-4o架构,运用音频数据集进行大量预训练,较此前推出的Whisper拥有更准确的识别能力,尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看,该模型在大多数主要语言上的表现都优于其他模型,获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts除了文本转语音功能外,还可在固定音色的基础上,实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择,生成不同情绪的语音内容。
目前,上述三款模型均已开放API,为全球开发者构建语音Agent提供支持;且定价较低,分别为0.6美分/分钟、0.3美分/分钟、15美分/分钟。从应用场景来看,模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司,如:1)智能客服或助手:焦点科技;2)广告营销:因赛集团、引力传媒、蓝色光标、天娱数科;3)教育:佳发教育、科大讯飞;4)情感陪伴应用/玩具:恺英网络、奥飞娱乐;5)影视:华策影视、博纳影业;6)游戏:巨人网络、掌趣科技等。
腾讯发布混元T1模型,实现超长文本推理、解码速度提升腾讯发布自研深度思考模型混元T1正式版,该模型具有超长文本推理强、生成速度快的优势。从性能来看:1)超长文本:通过架构优化,有效解决长文推理中常见的上下文丢失和长距离信息依赖问题,强化T1长文本捕捉和推理能力。2)解码速度:通过长序列处理的专项优化,实现相近参数量下解码速度提升2倍,达到首字秒出、吐字速度高达60-80token/s。从测评结果来看,T1在MMLU-pro、AIME等数学、逻辑推理测试中,成绩达到业界领先水平。从成本来看:T1沿用了混元Turbo S的Hybrid-Mamba-Transformer混合架构,有效降低Transformer架构的计算复杂度,实现训练和推理成本下降。从API定价来看:模型每百万tokens输入1元,输出4元;与DeepSeek-R1优惠时段一致,仅为标准时段价格的1/4(输入价格对比缓存未命中)。
核心观点
我们认为,音频模型gpt-4o-mini-tts通过用户自定义语音情绪、语调、语速等,使得语音生成更灵活、更高效匹配不同场景的应用需求。利好拥有相关应用场景的公司,如电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注:1)AI+广告营销:因赛集团、天娱数科;2)AI+影视:博纳影业;3)AI+游戏:恺英网络、巨人网络等。此外,国内推理模型持续迭代,腾讯自研混元T1进一步提升模型推理、超长文本处理、生成速度等能力,有效降低模型成本。
风险提示
AI技术发展不及预期的风险、政策监管的风险、行业竞争加剧的风险。( 太平洋 郑磊,李林卉)
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
【责任编辑:肖洁 】