0°

多模态功能上线,OpenAI让ChatGPT能说话、会看图

  此前谷歌无疑是AI领域无可争议的领头羊,它开源的深度学习框架TensorFlow更堪称是AI世界的基石,但是这一切却在2022年秋季戛然而止,OpenAI的ChatGPT横空出世让谷歌很快就黯然失色。并且外界没有想到的是,就在一年后,OpenAI又一次“截胡”谷歌。

  日前在毫无征兆的情况下,OpenAI发布了题为《ChatGPT现在能看、能听、能说》的公告,宣布将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能。

  根据OpenAI方面透露的信息显示,ChatGPT的多模态版本在10个月前就已经训练好了。那么为什么此前一直藏着掖着,现在却突然发布呢?外界推测,或许是因为不能让谷歌抢了先。

  最近这段时间,业内风传谷歌方面即将发布多模态模型Gemini,并且它可能会成为AI行业游戏规则的改变者。按照桑达尔·皮查伊的说法,Gemini集成了多种技术,支持同时输出文本和图像,还可以使用工具和API。所以在外界看来,面对来势汹汹的谷歌,OpenAI方面自然要用实际行动来还以颜色。

  所以在这一轮的更新中,ChatGPT不仅仅能够理解用户输入的文字,甚至还拥有了识别并理解语音、图像信息的能力。语音识别能力很简单,因为该功能使得ChatGPT获得了类似Siri、小爱同学的能力,并将提供五种不同的语音供用户选择,同时支持语音音频生成文本、将播客内容翻译成其他语言等功能。其实早在今年5月,ChatGPT已经支持了语音转文本功能,所以现在更进一步上线文本转语音功能并不那么令人意外。

  至于ChatGPT读取图像的能力,则早在今年春季OpenAI演示GPT-4时就已经被曝光。彼时OpenAI联合创始人Greg Brockman在纸上画出了他构想的网站草稿示意图,并拍了一张照片上传给GPT-4,后者立刻生成了这个网站的HTML代码。只不过这一能力在当时,被GPT-4更加耀眼的推理判断能力所掩盖。

  尽管看起来OpenAI为ChatGPT赋予的这两个新能力似乎有些平平无奇,但实际上它们会让ChatGPT的体验更上一层楼。

  先来说说ChatGPT能听懂用户说什么,并直接用语音与用户对话这个功能,据悉OpenAI联手专业配音演员为ChatGPT提供了Juniper、Sky、Cove、Ember和Breeze五种不同的合成声音。其实ChatGPT的语音能力确实没有出人意料,因此它的本质还是语音合成TTS(Text-to-Speech)。

  在经过十余年的发展后,如今的TTS技术其实已经相当成熟,AI会将输入的文本内容先切分词语、分割句子、标注语音语调,进而确定文本结构和语义信息,再结合语音合成模型,来生成包括音高、音量、语速、韵律在内的声学模型,最后加入波形合成就让AI能说话了。而ChatGPT的优势,在于它可以进行自然流畅的对话,几乎能模仿人类对话的方式,这就会让用户与它的对话有一种和人类、而非机器,隔着屏幕交流的体验。

  如果说语音能力让ChatGPT更像“人”,那么读取图像的能力就可以说是此次ChatGPT多模态能力中最让人惊喜的部分了。此前,OpenAI在GPT-4上展示从草稿到网站的功能被称为“代码解释器”(后改名为高级数据分析),但其面向的场景极为有限。而如今ChatGPT的图像读取能力则更加贴近用户的日常生活,毕竟随便一拍的照片就能得到ChatGPT的回应。

  根据OpenAI方面给出的示例,用户现在可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱;在旅行时拍一张地标的照片,让ChatGPT来讲述这处景点的有趣之处;还能拍一张数学题的照片,让ChatGPT来解答;更可以在炒股时拍一张K线图,让ChatGPT来替你看盘。但值得一提的是,OpenAI也主动对ChatGPT的图像读取能力进行了限制。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论