Eleven Labs已成为AI语音合成领域的领导者。该公司最近推出了一项新功能,用于创建有声读物等长篇项目,现在所有用户都可以通过付费计划访问一个名为 Projects 的工具。这一创新功能允许用户为其项目合成独特的声音,或从平台的广泛库中选择预先存在的声音。
使用Eleven Labs的新项目功能创建有声读物的过程始于用户创建帐户。设置帐户后,用户可以继续克隆他们的第一个语音并生成他们的初始画外音。该平台提供即时和专业的语音克隆选项,允许用户创建最适合其项目需求的声音。
Eleven Labs实验室项目
“项目 – 我们用于生成和编辑长篇音频的高级工作流程。项目是我们研究长篇语音合成、音频调节和并行音频生成的高潮,允许创作者、出版商和独立作者在几分钟内为整个对话片段、新闻文章甚至有声读物配音——所有这些都在一个工作流程中完成。
项目加入了语音合成,语音实验室和语音库,作为一个工具本身;长篇音频创作的一站式解决方案。它还与专业语音克隆、语音库和公司多语言模型完全集成。
如何使用AI创建有声读物
该平台的VoiceLab部分是用户可以添加或克隆语音的地方。在这里,Eleven Labs提供高质量的预制语音,以及允许用户创建独特声音的语音设计功能。用户可以选择性别、年龄和口音,以生成符合其项目要求的声音。重要的是要注意,可能需要几次尝试才能找到完美的匹配,并且每次用户按下生成时,AI 都会产生不同的结果。
在克隆语音时,考虑 AI 的训练以获得良好的克隆并专注于音频质量至关重要。提供清晰、节奏良好的单一语音,音量一致,没有任何背景噪音、颤动、混响或其他效果,通常会产生更好的结果。用户在尝试克隆具有不常见口音或高度动态语音的声音时应注意潜在的限制。
选择语音后,用户可以创建新项目、为其命名、选择默认语音、选择音频质量以及为项目选择模型。该平台按字符数收费,更高的音频质量选项会产生额外费用。用户可以将章节添加到其项目中,并粘贴每个章节的文本。该平台允许用户为每个段落单独生成音频,从而节省字符数学分。
Eleven Labs实验室音频功能概述
Eleven Labs新项目功能的突出特点之一是能够调整合成语音的稳定性,清晰度和风格夸张。这允许用户根据自己的喜好微调语音,确保最终产品尽可能接近他们的愿景。该平台还允许用户为对话中的不同角色分配不同的声音,将旁白与对话分开。此功能增加了有声读物的深度和维度,使其对观众更具吸引力。
- 完全转换: 使用一个按钮一次渲染整个项目,或使用“播放和再生”来测试特定片段。
- 说话人分配:将不同的文本片段分配给不同的说话人;为标题和段落选择默认语音。
- 重新生成音频片段:无缝重新生成较大音频片段中的特定片段,同时保持上下文完整。
- 插入停顿(本周晚些时候推出):手动调整语音片段之间的停顿长度(最初最多 3 秒),以微调节奏。
- 逐章细分: 将文本结构化为多个部分,以一次关注一个特定片段。
- 保存并恢复进度:方便地暂停您的工作,然后从上次中断的地方继续。
- 导入文件:项目支持 .epub、.pdf 和 .txt 文件,以及用于简化工作流程的 URL
- 智能再生: 在恢复已生成项目的工作时,您只需为重新生成更改的片段付费,而不是整个项目
Eleven Labs使用的AI已经在大量音频上进行了训练,其中有声读物最为突出。这是它最了解的上下文,它在生成音频时提供最可预测的结果。随着模型的每次连续更新,它已经被重新训练,随着数据集的增长,人工智能在理解不同上下文方面变得越来越好。这将有助于它理解人类、语言和口音之间的更多细微差别。
- 专业语音克隆:用您自己的声音生成长篇音频内容。您还可以通过语音库共享您的专业语音克隆,并在其他人使用您的语音创建项目时获得角色奖励。
- 语音库:从我们社区创建的无数声音中选择适合您叙述的完美声音。
- Eleven Labs 多语言:无论您选择预制语音、克隆语音还是您自己的声音,您都可以让他们无缝地说出我们的多语言模型支持的所有语言。
但是,对于用户来说,由于音频中的潜在奇怪之处,告知他们的观众有声读物是否是人工智能生成的,这一点很重要。虽然人工智能在不断改进,但在某些情况下,音频听起来可能并不完全自然。语音克隆功能的专业版本仍在测试中,有望进一步提高合成语音的质量。
未经允许不得转载:表盘吧 » 如何使用Eleven Labs实验室AI项目功能创建有声读物