ChatGPT增加了语音和图像输入，变成了成熟的语音助手-表盘吧

ChatGPT-Voice-Assistant-696x392.jpg.webp

OpenAI为ChatGPT引入了创新的更新，使用户能够通过语音命令和图像与AI机器人进行交互。这些功能最初可供 ChatGPT Plus 和企业用户使用，不久将可供更广泛的公众使用。用户现在可以与 ChatGPT 进行语音对话，并利用图像接收信息，这标志着朝着更直观的用户界面迈出了重要的一步。

“新功能将在未来两周内向那些为ChatGPT付费的人推出，其他人很快就会得到它，”OpenAI表示。

语音交互和合成语音

语音交互功能允许用户与ChatGPT无缝通信，类似于与Amazon Alexa或Google Assistant进行交互。AI机器人利用OpenAI的Whisper模型进行语音到文本的转换，并利用新开发的文本到语音模型来生成类似人类的音频响应。用户可以选择与专业配音演员合作创建的五种不同的合成声音。

OpenAI的产品经理Joanne Jang强调了创建用户可以整天听的声音的重要性。“在塑造声音时，首要标准是这是否是你可以整天听的声音，”她提到。

图像交互和实际应用

图像交互功能允许用户上传图像并查询其内容。此功能由多模态 GPT-3.5 和 GPT-4 提供支持，具有实际应用，例如协助膳食计划和解决数学问题。这项技术的一个值得注意的实现是它与Be My Eyes的合作，这是一个旨在通过描述上传图像的内容来帮助视障人士的应用程序。

应对风险和道德考虑

OpenAI承认与这些进步相关的潜在风险，包括语音欺诈和隐私问题。该组织已采取措施减轻这些风险，例如限制 ChatGPT 分析和直接陈述个人的能力。OpenAI对该模型的局限性保持透明，并建议用户不要在没有适当验证的情况下将ChatGPT用于高风险目的。

OpenAI的科学家劳尔·普里（Raul Puri）强调了组合模型的复杂性以及解决潜在滥用所涉及的广泛头脑风暴。“你有计算机视觉的所有问题;你有大型语言模型的所有问题。语音欺诈是一个大问题，“普里解释说。

未经允许不得转载：表盘吧 » ChatGPT增加了语音和图像输入，变成了成熟的语音助手

ChatGPT增加了语音和图像输入，变成了成熟的语音助手

语音交互和合成语音

图像交互和实际应用

应对风险和道德考虑

相关推荐

最新文章