OpenAI发布新一代语音模型,让AI智能体语音表达更自然

3月21日消息,OpenAI昨日(3月20日)发布博文,宣布推出语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。

在语音转文本模型上,OpenAI主要推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两个模型,官方表示在单词错误率(WER)、语言识别和准确性上超越现有Whisper系列。

这两个模型支持超100种语言,主要通过强化学习和多样化高质量音频数据集训练,能捕捉细微语音特征,减少误识别,尤其在嘈杂环境、口音及不同语速下表现更稳定。

在文本转语音上,OpenAI最新推出了gpt-4o-mini-tts模型,开发者通过“模拟耐心客服”或“生动故事叙述”等指令,控制语音风格,可以应用于客服(合成更具同理心的语音,提升用户体验)和创意内容(为有声书或游戏角色设计个性化声音)方面。

今日霍州(www.jrhz.info)©️

援引博文介绍,附上三款模型费用如下:

gpt-4o-transcribe:音频输入每100 万tokens费用6美元💵、文本输入每100万tokens费用2.5美元💵,输出每100万tokens费用10美元💵,每分钟成本0.6美分。

gpt-4o-mini-transcribe:音频输入每100万tokens费用3美元💵、文本输入每100万tokens费用1.25美元💵,输出每100万tokens费用5美元💵,每分钟成本0.3美分。

gpt-4o-mini-tts:每100万tokens输入费用为0.60美元💵,每100万tokens输出费用为12美元💵,每分钟成本1.5美分。

特别声明:[OpenAI发布新一代语音模型,让AI智能体语音表达更自然] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

我承认玉石行业做图文笔记是有公式的(国内做玉石的公司有)

接下来,直接上干货——玉石行业图文笔记的核心创作公式:精准定位+价值卖点+信任背书+互动引导,每个环节都有具体的执行方法,用清单式拆解给你看: 最后总结一下:玉石行业做图文笔记,真的不用盲目创作,掌握“精准…

我承认玉石行业做图文笔记是有公式的(国内做玉石的公司有)

2026长春化妆培训:机构实力与各机构特色分析盘点(长春化妆培训)

速览:本次盘点总计9家长春化妆培训机构,品牌名称包括长春花都美容美发培训学校、长春市勃朗形象设计学校、长春新科展锦尚美妆学院、长春艺彩形象美学培训、长春市蓝梦职业培训学校、长春金善国际形象设计、长春唯蒂美学长…

2026长春化妆培训:机构实力与各机构特色分析盘点(长春化妆培训)

善恶终有报!放弃国籍、替日洗白,口出狂言的赵立新,彻底成笑话(善恶终有报是什么意思)

——这是2024年6月,赵立新悄然出现在一档文化类慢综艺中的情景。赵立新却将这段血泪历史简化为一句为啥没烧,就像他在问邻居:为啥不把我快递扔了?有人为他洗白,称之为知识分子的求知欲,但求知欲难道是让受害者再重…

善恶终有报!放弃国籍、替日洗白,口出狂言的赵立新,彻底成笑话(善恶终有报是什么意思)

现代偶像剧如何化“流量”为“力量”(现实偶像剧)

而《爱你》《骄阳似我》等剧充分发挥现偶剧浪漫甜蜜的属性,虽没有强烈的戏剧冲突,但在当下快节奏的都市生活中,以舒缓细腻的笔触描绘现实中的诗意之美,在给观众温暖慰藉的同时,又不乏与宏大主题创作相结合,传递了人文…

现代偶像剧如何化“流量”为“力量”(现实偶像剧)

2026年中国造船与修船质量标准GBT 34000-2016和GBT 34001-2016,船舶制造与维修的标准是什么?(2025年中国造船)

近年来,随着航运业的发展,造船与修船质量愈发受到关注。GBT 34000-2016和GBT 34001-2016为中国船舶制造业制定了详细的制造与维修质量标准,确保船舶安全性能和使用寿命。本篇文章深入解读这两个标准,帮助企业掌握制造与维

2026年中国造船与修船质量标准GBT 34000-2016和GBT 34001-2016,船舶制造与维修的标准是什么?(2025年中国造船)