GPT模型迭代更新专注多模态与端侧应用

华金证券近日发布传媒行业快报：GPT模型迭代更新，专注多模态与端侧应用。

以下为研究报告摘要：

事件：5月14日凌晨，OpenAI发布新一代旗舰生成模型GPT-4o、桌面App，并展示新功能。GPT-4o（“o”代表“Omni”译为全能）更接近自然人机交互。接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

端到端训练，模型实现文本、图像、音频跨模态整合。根据OpenAI官网，GPT-4o音频反馈时长为232毫秒，平均反馈时长为320毫秒，已接近人类对话发应时间。早期音频模式：由三个独立模型组成（语音转文本-GPT3.5/GPT-4-文本转语音），会丢失大量信息并存在延迟GPT-3.5（2.8秒）、GPT-4（5.4秒），同时无法表达情感、唱歌等。GPT-4o模型特点：实现跨文本、视觉和音频训练，所有输入和输出由单一神经网络处理；实时反馈及情绪感知。各细分表现：语音翻译任务上，优于Whisper-V3以及谷歌和Meta的语音模型；视觉理解表现优于Gemini1.0Ultra与ClaudeOpus；支持3D内容生成。

多载体协同应用，价格与效率优势有助于应用生态建立。桌面版应用：融入工作流，实现与用户基于图像、文字、语音的实时交互。手机应用：具备接受环境音、即时反馈、感知情绪。API情况：与GPT-4Turbo相比、速度提升2倍、价格降低至50%，速率限制提高5倍。目前，GPT-4o可作为文本和视觉模型访问；未来或将对部分用户推出音频和视频功能。

大模型革新有望推动其下游应用发展。数据与算法为AIAgent等AI应用基础。根据甲子光年统计，全球数据量未来5年将持续增长，2022年，全球数据规模已达到103ZB；预计2027年，全球数据规模可达到284.3ZB。2022-2027年复合增长率可达到22%。AI与工作流结合方式：1、“+AI”依托现有智能体或系统引入A技术；2、“AI+”将AI作为核心驱动力，构建智能体的能力；3、以应用场景为目标，实现垂直领域应用。AI应用有望通过重构过往软件形态实现商业场景的落地。根据甲子光年统计，2023年中国人工智能行业市场规模超过5000亿元，预计2027年将达到12000-15000亿元规模，有望在制造、交通、金融、医疗等多领域实现应用落地。

投资建议：AI大模型基于交互形式与使用价格实现突破，有望进一步激发垂类应用。建议关注相关标的：汤姆猫、昆仑万维、世纪天鸿、蓝色光标、南方传媒、天娱数科、引力传媒、捷成股份、视觉中国、华策影视、中广天泽、中信出版、万兴科技。

风险提示：AI相关技术发展不确定性、政策不确定性、新产品用户接受度不确定性（华金证券倪爽）

GPT模型迭代更新专注多模态与端侧应用 | 投研精选

即时新闻

要闻推荐

热点专题

精彩视频

精彩图集