Meta发布Seamless Communication无障碍沟通模型

Meta发布Seamless Communication无障碍沟通模型

Meta发布了一个由多个模型组成的无障碍沟通模型,比较重要的就是SeamlessStreaming这个无缝流媒体语音输出,主要是下面几个模型:

SeamlessExpressive无缝表达翻译应捕捉人类表达的细微差别。虽然现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。 SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。

SeamlessStreaming无缝流媒体:SeamlessStreaming 是第一个大规模多语言模型,可提供约两秒延迟的翻译,且准确性与离线模型几乎相同。 SeamlessStreaming 基于 SeamlessM4T v2 构建,除了支持近 100 种输入语言和 36 种输出语言的语音到语音翻译外,还支持近 100 种输入和输出语言的自动语音识别和语音到文本翻译。

SeamlessM4T v2无缝M4T v2:2023 年 8 月,我们推出了 SeamlessM4T 的第一个版本,这是一种基础的多语言和多任务模型,可为跨语音和文本的翻译和转录提供最先进的结果。在此工作的基础上,我们改进的模型 SeamlessM4T v2 成为我们新的 SeamlessExpressive 和 SeamlessStreaming 模型的基础。它采用带有非自回归文本到单元解码器的新架构,可提高文本和语音输出之间的一致性。

这几个模型组合起来的演示效果还是非常好的可以去上面链接里看看,中文支持估计不太行。
x456h9zd.webp

未经允许不得转载:表盘吧 » Meta发布Seamless Communication无障碍沟通模型