OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

来源:IT之家2026年05月08日 10:14

OpenAI 发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑,目标解决语音交互中的延迟、打断处理和多语言支持难题。

GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。

定价方面,GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元(IT之家注:现汇率约合 218.1 元人民币),输出为 64 美元(现汇率约合 436.2 元人民币),缓存输入仅需 0.4 美元。

GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。

GPT-Realtime-Whisper 则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟 0.034 美元和 0.017 美元。

投稿与新闻线索: 微信/手机: 15910626987 邮箱: 95866527@qq.com
中国能源网官方微信二维码
欢迎关注中国能源官方网站
分享让更多人看到
中国能源网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。

即时新闻

要闻推荐

热点专题

精彩视频

雷鸟电视被指虚假宣传,消费者曝光“维权被要求签保密协议”
新型电力系统下的机遇与答案
绿色算力筑底强基 智造升级向新而行——中外记者团探访中国(内蒙古)自由贸易试验区呼和浩特片区内蒙古和林格尔新区产业高地
国家能源局发布51个“人工智能+能源”高价值场景并组织场景开放试点

精彩图集

核电送出特高压工程开展高空作业
中国成功发射通信技术试验卫星二十六号A星
世界杯成为民众表达不满的契机,墨西哥迎来抗议浪潮
渤海首个千亿方大气田Ⅱ期开发项目主体结构建造完成
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力
分享到: