Meta 本月推出了一款名为 AudioBox 的新 AI 声音发生器,它将改变我们与声音互动的方式。这个创新工具允许用户使用简单的文本提示轻松将文本转换为语音、创作音乐和创建声音效果。AudioBox 的推出标志着在使广大用户更容易创建自定义音频内容方面迈出了重要一步。
Meta 的 Audiobox 文本转声音音频创作系统是 Voicebox 的继任者。通过统一语音、音效(短促、离散的声音,如狗吠声、汽车喇叭声、雷声等)和音景的生成和编辑功能,进一步推进音频生成式 AI,并采用各种输入机制,最大限度地提高每个用例的可控性。
AudioBox 具有多种功能,可满足各种音频生成需求。例如,它的文本转语音功能使用户能够将书面文本转换为逼真的语音,并提供一系列语音选项供您选择。那些对音乐感兴趣的人可以使用 AudioBox 制作音乐曲目,而无需掌握传统乐器或复杂的软件。此外,该工具能够产生量身定制的声音效果,这对于游戏、电影和其他多媒体项目特别有用。用户可以使用直观的文本或音频提示根据自己的特定需求自定义音频输出。
文本到声音 AI 音频生成
Meta 设计了 Audiobox,使人们能够使用自然语言提示来描述他们想要创建的声音或语音类型来创建声音。例如,如果您想创建新声音,只需在 AI 模型中输入文本提示,例如“流淌的河流和鸟儿的鸣叫”。观看下面的视频,了解其当前功能的概述和演示。
此外,AudioBox 不仅仅是一个基本的声音发生器;它包括突破 AI 生成音频界限的高级功能。其中一项功能是
,它允许复制样本中的任何声音,从而提供个性化的音频创作体验。该工具还可以重新设置现有音频的样式以适应不同的上下文,并使用 AI 生成的内容无缝编辑或替换音频片段,这一过程称为音频修复。
“Audiobox在语音和声音效果生成方面展示了最先进的可控性。我们自己的测试表明,在主观评估中,它在质量和相关性(忠实于文本描述)方面明显优于之前的最佳模型(AudioLDM2、VoiceLDM 和 TANGO)。Audiobox在各种语音风格的风格相似度上比Voicebox高出30%以上。
供货情况和定价
Meta 目前正在向一组精心挑选的研究人员和学术机构提供 Audiobox,这些研究人员和学术机构在语音研究方面有着良好的记录,以帮助进一步推动该研究领域的技术发展。该公司致力于确保以合乎道德和负责任的方式使用 AudioBox。该公司已经实施了保障措施,以防止潜在的滥用,并确保人工智能遵守道德准则。这种对道德使用的承诺通过支持对 AudioBox 安全应用研究的赠款申请进一步证明。
AudioBox 的另一个令人兴奋的功能是 AudioBox Maker,它允许用户通过分层声音和音乐来构建复杂的音频场景。这样可以创建复杂而身临其境的音景,从而增强任何音频体验。Meta 的 Audiobox 交互式演示和研究论文现已推出,让您可以测试音频生成的新基础研究模型。
AudioBox有望对音频制作行业产生重大影响。其全面的功能和对道德使用的奉献精神意味着内容创作者、音乐家和开发人员可以期待新的可能性领域。当我们等待 AudioBox 的进一步更新时,包括其潜在的开源版本以及正在进行的安全和责任研究的结果,很明显,该工具将成为音频制作领域不可或缺的资产。
未经允许不得转载:表盘吧 » 如何使用 AudioBox Meta 的新文本转声音 AI 工具