在人工智能(AI)领域,OpenAI无疑是业界的领头羊。从最初的GPT系列到最近的文生视频模型Sora,再到备受期待的ChatGPT实时语音功能,每一次创新都吸引着全球的目光。现在,这个令人期待已久的实时语音功能终于要来了,无疑将再次革新我们与AI交互的方式。
近日,OpenAI通过社交媒体正式宣布,实时语音功能(官方命名为Advanced Voice Mode)将在本周内陆续推送给所有ChatGPT Plus和Team会员用户。除了实时语音的核心功能外,OpenAI还为该模式添加了自定义指令(Custom Instructions)、记忆(Memory)、五种全新声音以及改进的口音,使得用户体验更加个性化和自然。
那么,如何判断自己是否已经获得了实时语音功能的推送呢?
非常简单。在手机上打开ChatGPT应用程序,点击页面右下角(输入框右侧)的语音按钮。如果你的账号已经开通了实时语音功能,你将会看到一个确认信息提示。点击“Continue”,ChatGPT会引导你选择喜欢的声音音色。此时,你可以看到新增的五个声音选项,它们都标有“NEW”的标识。通过试听不同的声音,你可以选择最符合自己偏好的音色。完成选择后,点击“Done”,即可开始与ChatGPT进行愉快的实时语音聊天。
如果你的账号尚未获得推送,你将在常规的语音聊天页面看到如下提示:“Advanced voice mode is on its way. Advanced voice mode is starting to roll out to all users. You don't have access yet, but check back soon to start using the new features.”,这意味着你需要耐心等待一段时间,新功能很快就会到来。
升级后的ChatGPT总共提供了九种声音供用户选择,每一种声音都拥有独特的个性和特点。以下是这九种声音的详细介绍:
Sol(NEW):聪慧且放松。这种声音适合那些追求轻松愉快对话体验的用户,其特点是聪明而悠闲,能够营造一种舒适的交流氛围。
Ember:自信且乐观。Ember 是一种充满信心和积极向上的声音,适合在需要传达坚定和热情的场合使用。无论是在商务洽谈还是在鼓励他人时,Ember 都能传递出强大的力量。
Maple(NEW):活泼且坦率。这种声音充满活力和真诚,适合轻松、开朗的对话。Maple 能够为对话增添一份活泼的气氛,使交流更加愉快。
Arbor(NEW):随和且多才多艺。Arbor 是一种随和且适应性强的声音,适合多种对话场景。无论是在日常闲聊还是在正式场合,Arbor 都能给人一种轻松自然的感觉。
Juniper:开朗且积极。Juniper 是一种充满开放和积极向上情绪的声音,适合愉快的交流场景。如果你希望营造一种轻松愉快的氛围,Juniper 将是一个不错的选择。
Vale(NEW):明亮且好奇。Vale 是一种充满好奇心和求知欲的声音,给人一种明快而机智的感觉。Vale 适合用于需要激发思考和探索的对话。
Spruce(NEW):平静且充满肯定。Spruce 是一种沉稳并富有肯定性的声音,适合营造安心的对话氛围。在需要提供支持和鼓励时,Spruce 能够传递出稳定和信任感。
Breeze:生动且真诚。Breeze 是一种充满生气和诚恳的声音,适合表达热情与真诚。如果你希望在对话中展现自己的热情和诚意,Breeze 将是一个理想的选择。
Cove:沉着且直接。Cove 是一种冷静且直接的声音,适合简洁明了的对话风格。在需要清晰表达观点和传递信息时,Cove 能够确保信息准确传达。
OpenAI 还优化了部分外语的对话速度、流畅度和口音。尽管 OpenAI 官方没有明确指出具体优化了哪些外语,但经过测试,在实时语音模式下,ChatGPT 的中文回复有了显著提升,听起来更加自然流畅,不再像以前那样生硬。这一改进无疑将提升中文用户的体验。
为什么 ChatGPT 的实时语音功能如此令人期待?
尽管许多 AI 工具都具备语音对话功能,但 ChatGPT 的实时语音功能之所以备受瞩目,在于它实现了更自然、流畅的交互体验。传统的语音对话往往停留在“一问一答”的模式,用户说完一句话后,AI 需要先将语音转换为文本,再通过 LLM 模型生成回复文本,最后将文本转换为语音播放出来。在这个过程中,用户无法打断 AI 的回复,也无法进行实时互动。这种模式严重限制了对话的流畅性和自然性。
相比之下,ChatGPT 的实时语音功能更加接近现实生活中的实时对话。用户可以在与 ChatGPT 对话的过程中随时插话、打断,就像与真人进行电话交流一样。这种即时性消除了传统 AI 对话中的延迟感,使得整个对话过程更加连贯和自然。此外,ChatGPT 的实时语音功能还具备情感感知能力。它不仅能理解用户的语音内容,还能识别用户的情绪变化。例如,当用户在讲话时出现喘息,ChatGPT 可能会建议你“慢下来”。这种智能情感反馈使互动更加贴近人类沟通方式,使对话更加真实自然。
要使用 ChatGPT 的实时语音功能,需要满足以下两个条件:
- 拥有一个 ChatGPT 账号。
- 开通 ChatGPT Plus 或 Team 会员,因为目前实时语音功能仅对付费会员开放。个人用户建议开通 ChatGPT Plus 会员即可,高级模型(GPT-4o、o1)的使用次数足以满足个人需求。
需要注意的是,ChatGPT 的实时语音功能仅支持移动端(手机 app)和 Mac 客户端,网页端暂不支持语音功能。因此,想要体验这一新功能的用户需要在移动设备或 Mac 设备上使用 ChatGPT 应用。
总而言之,OpenAI 推出的 ChatGPT 实时语音功能代表了人机交互领域的一大进步。它通过消除延迟、实现实时互动和引入情感感知能力,使得 AI 对话更加自然、流畅和人性化。对于那些一直期待这一功能的用户来说,现在是时候行动起来,体验 ChatGPT 带来的全新对话体验了。可以预见,实时语音功能将在各个领域得到广泛应用,例如智能客服、教育辅助、娱乐互动等,为人们的生活和工作带来更多便利和乐趣。未来,随着 AI 技术的不断发展,我们有理由期待更加智能、自然的 AI 交互方式的出现。