字节豆包语音分解成绩Seed 是声响太真了耳朵没错

2024-11-15

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成绩。

它生成的语音简直与真人齐全一样，连发音瑕疵也能生成出来，尤其在学习模拟人类谈话方面，相似性和自然度均有很好表现。

举例来说，将一段语音提供应 Seed-TTS， 它就能按文本生成全新语音，且带上原素材的声响特色。

英文语音也可生成，且依然能“复刻”中文发音者的特点。

Seed-TTS 生成的英文语音：

再举例来说， 音色定制，Seed-TTS 也能成功，并在声响中带出人物的“娇嗔感”：

不只可以生成“单人”声响， Seed-TTS 甚至可以依据小说情节和不同角色特质，出现对应人物和心情的“说书”。

更多演示及原理，请见原论文及效果展现：

在发布技术报告之前，Seed-TTS 局部技术已在 C 端产品上线一段时期，取得用户很多实在好评，并对外以豆包语音分解模型和豆包声响复刻模型启动技术商业化服务。

关于该成绩的技术亮点、钻研价值、克制了哪些应战，无妨听听团队的分享。

一个语音生成基座大模型

Q：Seed-TTS 已被一些圈内人关注到，有什么认可，让你印象很深？

有个做语音识别的传授，起初在一家公司到任，是我十分拜服的业内人。不久前一次性学术会议，咱们演示了 Seed-TTS 的 Demo ，他看了就反应说，最近本想看看语音生成方向有什么可做的，看完觉得这方面上班如同没什么可干的了。虽然我觉着仍有提空中间，但听完自己是十离开心的。

Q：为什么感到开心？

他人间接说你做得好，更多或许是客气。但这位传授过后正寻觅关系钻研课题，在这时期，看到咱们的成绩，给出侧面评估，并且觉得咱们的成绩曾经很好了，要另寻其余题，这对咱们真的是很高的认可。

Q：对比此前成绩，Seed-TTS 有什么不同？

它是一个语音生成的基座模型，跟少数语音生成模型稍有不同。详细来说，传统 TTS 是繁多义务模型，但关于基座模型，咱们宿愿它无能任何义务，收回任何声响，且同时准许咱们启动很多个维度的操控，比如方言，真人口癖，甚至吞字这类语音上的瑕疵。

只需环球上存在的语音方式，英语、日语、汉语，甚至各类言语中的方言，如汉语中的陕西话、河南话…或许是开心、惆怅、大哭大喊、怄气，只需人类存在的声响，咱们都宿愿它收回来。

Q：以上种种想象，都做到了么？

很大一局部做到了，当然也有一些中央做不到，但技术不时在往前走，就像如今言语模型是个基座，在文本层面有很深度的了解，咱们也宿愿把它真正做成一个“基座”。

Q：做出一个“基座模型”的应战在哪里？

A：第一是细节建模要好。 以往 TTS 作为播报系统，其实很容易就能成功，但听起来是“机器音”，假设要做到基座模型，且声响像人，须要少量细节。尤其人类对自身声响很敏感，小狗小猫叫声即使不太自然，或许也听不出来，但人类语音有一点疑问，听出来就很“机械”。

第二，须要高自然度和高稳固性。 前两年的干流 TTS 大多都基于先验常识和时长模型，每一个 Phone 都会定义出来，但从底层就限度了表现力。倘若去掉这些，则会产生稳固性和自然度疑问，这又是一个应战。

第三是数据笼罩（>

第四，模型设计。 这么大规模状况下，如何设计模型，使得各方面效果都比拟好，这也是很大应战。

最后是工程应战。 下面提到了，咱们的数据量级大，模型复杂度高，自然就会带来工程方面疑问，这方面之前也很少有人去处置。

Q：技术层面看，处置这些应战有什么价值？

关键是在钻研环节中，试图回答了很多过去没处置的疑问：

其余方面亮点还有很多，包括自回归语音生成模型的稳固性疑问。此外，经过这回钻研，咱们也在尝试从 TTS 畛域外的视角看 TTS 疑问。

Q：你提到了对言语模型和分散模型的钻研，从中咱们得出什么论断？

Seed-TTS 不只提供一个基于言语模型的技术打算，同时，也提供另一个齐全脱离时长模型的 Diffusion 技术打算，这在业内也是第一个。

此外，经过对两个系统的少量比拟，咱们发现，言语模型关于流式处置相对友好，分散模型对编辑处置更为适宜，我置信在未来，这两者会继续融合。

Q：关于这两个系统，Seed-TTS 详细处置了哪些技术难点？

针对言语模型系统，关键处置语音的 Tokenizer 和稳固性。

关于言语模型建模来说，语音 token 化是外围一环。目前市面上，延续和团圆的 Tokenizer 都有，团队启动了较多探求。咱们发现，Token 蕴含消息的设计，对整个模型各方面表现及稳固性有十分关键的影响，这既包括 Token 的消息、帧率等，也包括如何 Tokenizer ，以及如何将其再变回声响。目前，这些在业内探求并不多。

言语模型的稳固性方面，咱们在 token ，模型设计，解码战略，数据预备上做了多方面的探求，真正做到了工业及运行的要求。

关于纯 Diffusion 系统，由于去掉了额外的时长模型，其难点雷同集中在稳固性上。经过多方的尝试，咱们在该链路上也成功了很好的目的。

Q：关于“语音和文本模型有很多相似之处”，这对咱们有什么启示？

从文本大模型的视角看，语音生成模型也可以分为 Pretrain，Instruct Fine-Tuning 和 Post Training。

其中， Pretrain 可提高模型的基础才干，详细就表现为 Incontext Learning 才干，比如音色续写，语音克隆等才干。

关于 Instruct Fine-Tuning ，关键就是经过 Instruct ，让语音生成环节愈加可控，就像导演跟演员去提要求，谈话快点、慢点，怎样才干感动人，这些都被咱们集成出来。

最后，咱们还发现强化学习在很多维度可认为模型带来提高，将各种主客观偏好消息集成到生成系统里，包括稳固性、控制力、表现力、自然度等等。业外在这方面探求的人也不太多。

在上述基础上，咱们也探求了应用分解数据以启动 Self-Distillation 的方法，雷同取得十分好的收益。这在文本 LLM 中经常使用相对多一些，在语音行业，之前探求也相对较少。

Q：你三次提及“一些疑问业内探求较少”，什么形成了这个现象？

一方面，之前语音生成畛域的钻研相对独立，有很多行业的传统阅历，在这波 AIGC 大潮流下曾经不必定实用了。从更狭义角度看，语音生成跟文本、图像生成有很多共通之处。文本大模型，图像生成的极速开展也带给了咱们很多新思索。由于新思绪推行还须要时期，所以业内探求还比拟少。

另一方面是很多钻研者在学校里上班，没无关系资源。这外面系统性工程十分多，咱们不只能做到，而且探求也比拟细，发现了一些能统筹稳固性、表现力和运算量的模型。但这是不是做到了最好呢？或许还须要不时探求。

Q：整个钻研环节中有什么里程碑式的时辰么？

基础效果去年就出了，尔后咱们用实在案例迭代了很多，这当中的上班包括：实在案例的寻觅、各种 Post Training 、处置落地疑问（比如各种场景下的稳固性、首包提前、并发数、运算量等）。相比过后，如今效果又优化了十分多。

语音生成大模型走到哪一步了？

Q：如今回看，整个钻研的价值在哪？

从 Seed-TTS 自身价值来说，语音不齐全是工具，而是人类最间接的交互方式。比如从无声电影到有声电影，小小的变动，却是一个行业渺小的飞跃。人与人之间的情感衔接更多依托语音，比如小孩喊一声爸爸，给你的情感衔接和读文字齐全不一样。

假设咱们要迈向真正的 AI ，语音的自然度是关键一环。过去咱们想象的机器都是机器音，比如《漂泊地球》里的 Moss ，假设 AI 真能像你的助手、同伴一样，那语音带来的情感衔接必无法少。《钢铁侠》的贾维斯之所以被很多人记住，也是由于它是真人配音的。

此外，在运行方面，语音的落地场景也十分多，比如小说电子书、角色设计、视频翻译、虚构角色、播音、演员表白，都有用武之地，包括口吃、发不出声响的人依然可以借助语音技术表白。只需不是纯正消息媒介属性的语音场景，都有运行空间，这也是咱们把基座模型做好的能源。

Q：Scaling law 已被一些从业者视为“崇奉”，关于语音生成模型，咱们把数据和模型 Scale 后，结果如何？

即使在很少量级上，咱们继续扩展规模，也总能看见收益。总的来说，经过 Scale 的量级增大，咱们很惊喜地看到，模型在不时失掉新才干。

Q：依据你们的观察，这个极限在哪？

目前来说，咱们依然每次仍能看到收益，必需还须要继续探求。 不过，咱们曾经证实经过正确的模型设计，可以冲破 TTS 传统思绪。以往，咱们依托大批高质量数据，但如今，咱们不时参与量级，能取得更高收益。

Q：GPT4-o 对咱们有什么启示？

它是一个生成和了解一致的模型，对语音技术的要求更高，须要一个模型同时具有听，说，想的才干。这些对咱们上班提出很多新要求。

Q：目前语音畛域大模型开展到哪一步了？

一方面是宿愿模型领有专业演员级别的表现力和控制力。大局部时刻，模型生成语音跟真人曾经差异不大，但在影视剧中，演员表白心情十分强烈，消息密度比拟高，不齐全能对齐。咱们都宿愿把 Corner Case 补全。

另一方面就是细节的处置，包括 Bad Case 处置和优化，处置不经常出现的长尾状况。

大模型上班须要少量低劣人才介入出去

Q：本次 Seed-TTS 的发布，环球各地的共事都有介入出去，为什么有这么多人介入？

随着行业开展，多人协作是无法防止的。要把大模型做到极致，同时满足工业化落地，无法能经过 1 - 2 个想法撑持，必需很多人介入出去。且各方面介入者都得很专业。比如咱们的数据，须要专业同窗介入处置。再比如落地环节触及很多细节，须要专门做评测、工程支持同窗配合。他们都做出了渺小奉献。

咱们可以看到 AI 前沿钻研的干流玩家中，一个名目介入者人数十分多，每个环节都有专业的同窗担任，如此高密度、高复杂度的人才协作、精细配合，对组织力的要求也是很高的。

Q：你眼中的团队气氛是怎样样？

我觉得是有“冲劲”和“抠细节”。“冲劲”体如今大家做事都很被动。出于猎奇和扭转行业的想法，这自身也是一个自驱的环节。这种气氛比拟像守业公司，大公司比拟少。

Q：你还提到了团队会“抠细节”，如何了解？

这个说的是抠实在场景中的细节。关于生成类上班，Demo 很容易做得美丽，但在实践运行中，系统会面临各种各样的细节疑问。为保障模型一直都有高质量的生成，满足用户需求，咱们对系统稳固性和鲁棒性要求很厚道，须要重复打磨，把每一个细节都做到很高质量。反而是 Demo ，咱们没做太多优化。

Q：关于“不做太多 Demo 优化”，咱们外部有过争执么？

有啊，尤其年轻同窗们，毕竟大家都宿愿把比拟好的一面展现出来，但咱们还是宿愿拿到能够落地的效果，防止用户在实在经常使用环节中发现产品和 Demo 有很大落差，真正扭转行业。

Q：目前关系技术在豆包 App 有运行么？

一些关系技术曾经运行一段时期，在实在场景中经用户认可，咱们才对外展现，还有局部技术正在做一些最后上线上班。

Q：哪些关键词能概括咱们的团队？

第一个是专业。 这体如今很多方面，包括数据、基础设备、模型设计等等。咱们会很专业地去抠每个环节细节，从工业落地角度登程，把功能做到极致。

第二个词是专一与冲劲。 为了到达咱们的目的，专一和冲劲是少不了的。所以大家投入度十分高，等成绩然正做出来后，大家也很有成就感，取得了自信。

第三个词是勾搭。 团队协作的时刻，大家都没什么领地看法，配合也会很顺畅，这让我觉得十分舒适，这在大公司是很少见的。

Q：咱们团队宿愿继续吸引什么特质的人参与？

首先看价值观能不能合乎上。 才干诚然是一方面，更关键的是，咱们宿愿能找到风雨同舟的同伴，让每团体能取得自我成功。在这种价值观下协作，自然地，就会很顺畅。

其次是背景的多样性。 目前 AI 各畛域经常使用的方法都相似，且大家正逐渐往一致方向去融合，因此，强化学习、视觉识别、音频识别等畛域的阅历都对生成有至关关键的作用。咱们宿愿不同专业背景的同窗介入出去。我自己就是语音了解出身，转做 TTS 的。

最后是客观能动性和学习才干，对上班有高谋求。 生成式义务也有很多共同之处，咱们宿愿候选人能找到义务与联合自身阅历的联合点，这当中，被动学习才干是必要的，同时，咱们宿愿能做出行业最好的技术和产品，日常也要求同窗们怀揣这样的愿景不时行进。

原文链接:

<<它们之间有什么区别和咨询什么监视学习无监视学习与深度学习

训练原理与环节从做菜的角度来更笼统的了解什么是大模型的参数以及为什么要训练>>

字节豆包语音分解成绩Seed 是声响太真了 耳朵没错

您可能还会对下面的文章感兴趣：

随便看看

字节豆包语音分解成绩Seed 是声响太真了耳朵没错