Microsoft的Rumi项目展示了副语言学如何帮助人工智能系统更好地理解人类。

鲁米项目是一个Microsoft研究项目,正在开发一种提高对人工智能系统理解的新方法。该项目使用多模式方法,将文本、音频和视频数据结合起来,以更全面地了解用户的意图。

人工智能(AI)系统近年来取得了显着进展,特别是在自然语言处理(NLP)领域。然而,这些系统中的大多数仍然依赖于文本输入和输出,忽略了人类在自然交流中使用的丰富而富有表现力的线索,例如语气、面部表情、手势和肢体语言。这些线索统称为副语言学或副语言,可以传达有关说话者的情感、意图、个性和社会背景的重要信息。

为了解决这一差距,Microsoft研究的一组研究人员开发了Project Rumi,这是一个新颖的框架,旨在通过多模态副语言提示来增强AI理解。该项目由两个主要组件组成:多模态副语言编码器和多模态副语言解码器。

编码器将多模式语句作为输入,其中可以包括语音、文本、图像、视频或这些形式的任意组合。接下来,编码器从每种模态中提取相关的副语言特征,并将它们编码为统一的表示形式。然后解码器采用这种表示并生成适合给定上下文和所需目标的多模态响应。

利用旁语言学提高对 AI 的理解

副语言学是研究口语交流中不涉及单词的方面,而是涉及说话方式,例如语气、音调、音量、语调等。副语言学可以传达有关说话者的情感、意图、个性和社会背景的重要信息。简单来说,鲁米项目可以导致一个人工智能系统,该系统不仅能够理解正在说的话,而且还能够理解用户的情绪状态和说出这些话的背景。

它是元沟通的一个组成部分,元沟通是关于沟通的沟通。副语言学可以修改或细微差别所说的含义,甚至与之相矛盾。例如,用欢快的语气说“我很好”可以表示真诚,而用讽刺的语气说可以表示讽刺。

研究人员声称,鲁米项目可以实现各种需要人类和人工智能系统之间自然和引人入胜的通信的应用程序。例如,Project Rumi 可用于创建会话代理,这些代理可以根据用户的情绪、个性和偏好调整其响应。

根据这项研究,鲁米项目可以实现人类和人工智能系统之间更自然、更有效的沟通。它还表明,鲁米项目可以通过利用来自不同模式的互补信息来促进跨模式学习和迁移。此外,研究人员指出,鲁米项目可以通过允许人工智能系统产生新颖和多样化的响应来支持多模式创造力。

未经允许不得转载:表盘吧 » Microsoft的Rumi项目展示了副语言学如何帮助人工智能系统更好地理解人类。