ChatGPT增加了语音和图像输入,变成了成熟的语音助手

OpenAI为ChatGPT引入了创新的更新,使用户能够通过语音命令和图像与AI机器人进行交互。这些功能最初可供 ChatGPT Plus 和企业用户使用,不久将可供更广泛的公众使用。用户现在可以与 ChatGPT 进行语音对话,并利用图像接收信息,这标志着朝着更直观的用户界面迈出了重要的一步。

“新功能将在未来两周内向那些为ChatGPT付费的人推出,其他人很快就会得到它,”OpenAI表示。

语音交互和合成语音

语音交互功能允许用户与ChatGPT无缝通信,类似于与Amazon Alexa或Google Assistant进行交互。AI机器人利用OpenAI的Whisper模型进行语音到文本的转换,并利用新开发的文本到语音模型来生成类似人类的音频响应。用户可以选择与专业配音演员合作创建的五种不同的合成声音。

OpenAI的产品经理Joanne Jang强调了创建用户可以整天听的声音的重要性。“在塑造声音时,首要标准是这是否是你可以整天听的声音,”她提到。

图像交互和实际应用

图像交互功能允许用户上传图像并查询其内容。此功能由多模态 GPT-3.5 和 GPT-4 提供支持,具有实际应用,例如协助膳食计划和解决数学问题。这项技术的一个值得注意的实现是它与Be My Eyes的合作,这是一个旨在通过描述上传图像的内容来帮助视障人士的应用程序。

应对风险和道德考虑

OpenAI承认与这些进步相关的潜在风险,包括语音欺诈和隐私问题。该组织已采取措施减轻这些风险,例如限制 ChatGPT 分析和直接陈述个人的能力。OpenAI对该模型的局限性保持透明,并建议用户不要在没有适当验证的情况下将ChatGPT用于高风险目的。

OpenAI的科学家劳尔·普里(Raul Puri)强调了组合模型的复杂性以及解决潜在滥用所涉及的广泛头脑风暴。“你有计算机视觉的所有问题;你有大型语言模型的所有问题。语音欺诈是一个大问题,“普里解释说。

未经允许不得转载:表盘吧 » ChatGPT增加了语音和图像输入,变成了成熟的语音助手