ChatGPT大更新！能看能听也能说，多模态功能即将上线

　　ChatGPT 又更新了：语音和图像交互即将面世。

　　9月25日晚，OpenAI 在一篇最新的博客中表示，ChatGPT 将推出新的语音和图像功能。用户不仅可以在文本框中输入提示，还可以通过语音或图像与 ChatGPT 交流。据 OpenAI 称，新功能将在未来两周内向 ChatGPT 付费用户推出，不久之后会推广到其他用户。

　　ChatGPT 新增语音和图像功能

　　据介绍，用户只需轻轻点击一个按钮，然后提出问题，便可以与 ChatGPT 进行语音交流。ChatGPT 将迅速将这些口述的问题转换成文本，并将其输入至大型语言模型中。随后，ChatGPT 会将这些答案再次转化为语音来回答问题。这一体验类似于与 Alexa 或谷歌助手对话，但 OpenAI 致力于不断改进底层技术，提高回答问题的质量。

　　语音转文本的任务由 OpenAI 的 Whisper 模型提供支持。同时，该公司正在引入一款全新的文本转语音模型，据称可以通过仅几秒钟的语音样本生成与人类相似的音频。用户还可以从 5 个不同的选项中选择 ChatGPT 的声音。此外，OpenAI 正在与 Spotify 合作，将播客内容翻译成其他语言，同时保留播客主持人的声音。

　　图片搜索功能类似于 Google Lens。用户只需拍摄感兴趣的照片，ChatGPT 就可以解读照片中的信息并提供相应的答案。此外，用户还可以利用应用内的绘图工具，以更清晰的方式表达问题，或者直接通过图片或文本提出问题。这正是 ChatGPT 独特的特性所带来的帮助，用户可以与机器人进行互动，逐步完善答案，而无需首先进行搜索并在得到错误答案后再次搜索。

　　图像理解得到了多模态 GPT-3.5 和 GPT-4 的支持。这些模型将其语言推理技能应用于各种图像，包括照片、屏幕截图，以及包含文本和图像的文档。

　　ChatGPT可以用五个“角色”来回答用户的查询，与Alexa和Siri等语音助手相比，它的语气听起来也更像真人。OpenAI表示，增加语音功能是吸引更多用户使用ChatGPT并与其互动的重要方式。

　　OpenAI负责消费产品的副总裁彼得·邓(Peter Deng)接受采访时表示：“这是我们面临的挑战，最难的一项工作就是将这项令人惊叹的技术简化。”

　　目前，人们可以在ChatGPT的移动应用上大声提问，但聊天机器人会以文本回答。现在人们还可以将图片作为问题的一部分上传给聊天机器人，比如展示冰箱里的食材照片，并要求聊天机器人给出食谱建议。

　　添加语音和图像功能使得ChatGPT有望成为一个真正的“多模态”模型，它可以“看到”和“听到”世界，并能够用语音和图像进行回应。多模态模型是该行业竞争的下一个阶段，许多公司正在竞相开发功能更强大的模型。

　　多年来，语音助手已经出现在汽车、智能手机、电视和智能音箱中，每天有无数人使用。但在大多数情况下，语音助手只能进行简单的互动，比如开灯或报天气等。聊天机器人背后的“大语言模型”技术开启了一种可能性，让语音助手能够进行更长、更自然的对话，并回答更复杂的问题。

　　投资者和分析师指责亚马逊对聊天机器人和图像生成器等生成式人工智能领域的竞争反应迟缓。Anthropic的投资将使亚马逊接触到这家初创公司的研究人员和技术。Anthropic由前OpenAI员工创立，之前曾接受过谷歌的投资。

　　市场研究公司Gartner副总裁吉姆·黑尔(Jim Hare)表示，亚马逊通过上述举措向市场展示了自己是生成式人工智能领域的积极参与者，并试图改变人们对其已经落后的印象。

　　OpenAI去年11月发布了ChatGPT，引发了聊天机器人的热潮。微软与OpenAI合作使用后者的技术，谷歌则推出了自己的聊天机器人Bard。

　　人工智能研究人员警告称，人们可能会过度拟人化聊天机器人，因为它们的回答通常看起来很像真人的回应。这可能导致用户错误地对机器人的智能或能力产生信任。然而，聊天机器人仍然常常编造信息，并将其伪装成真实答案，这被人工智能研究人员称为“幻觉”。

　　ChatGPT的新角色名为Sky、Ember、Breeze、Juniper和Cove，每个角色都有不同的语调和口音。“Sky”的声音听起来有点像斯嘉丽·约翰逊(Scarlett Johansson)，她在电影《她》中为主角爱上的人工智能配音。。OpenAI高管彼得·邓表示，语音角色并不是为了让人听起来像某个特定的人。

　　在一次演示中，彼得·邓展示了机器人如何理解杂乱无章的开放式语音问题。他说，这些新功能使对话变得更容易、更自由，而不必考虑如何准确地表达一个问题。“有了这个功能，你就可以与ChatGPT对话了，”邓说。“我的孩子现在要求用ChatGPT讲睡前故事。”

　　OpenAI的政策研究员桑吉尼·阿加瓦尔(Sandhini Agarwal)在采访中表示，他们已经测试了语音和图像功能，并增加了安全措施，以确保机器人对敏感话题作出适当的回应。例如，如果用户询问与心理健康相关的问题，ChatGPT会建议他们咨询专业人士。不过，阿加瓦尔表示还有更多工作要做，这项工作还远未完成。