【吐槽】Vocaloid的不足之处

混乱的发展路线

Vocaloid的软件更新速度相对来说比较缓慢，平均4年迭代一个大版本。但除了V1和V2、V4和V5之间的更新较大外，其他版本之间的更新对已经熟练使用的用户而言，仅仅是功能更新，不需要额外的学习成本。

但前提也仅仅限于熟练使用的用户。2014年底发布的V4，其界面相对于2007年初发布的V2而言，并没有太大的变化。虽然在那时，与为数不多的竞品UTAU和Cevio相比已经算好的了，但相较同期的Photoshop CC 2014、Office 2013而言，它们的设计语言则显得过于落后了。

在V4到V5的这段时间内，Sharpkey等新兴引擎引入了钢琴窗画音高线等便利功能，以及基于统计或机器学习改善合成质量、减少声库大小的革新。其中，最广受好评的便是Synthesizer V，不仅大大降低了新用户的学习成本，也吸引了AHS等开发商与其深度合作。

但V5的开发可能并没有收到这些新兴引擎的影响，虽然更新了更加现代的UI，但随之而来的是臃肿的用户体验。对于产品核心用途——调音的更改几乎全部都是负优化，增加的效果器、语音包等功能不管对专业用户还是爱好者而言都显得过于鸡肋。同时，由于售价高昂、合成效果提升不明显、开发成本并没有降低，导致大量用户及厂商出走。

音素与声库的冗余

Vocaloid的合成机制是，每两个音素之间需要必须拥有一个过渡采样，才能正常合成。如果设计音素拼接方案时考虑不周，极其容易导致声库冗余采样过多，增加声库制作和使用的成本。同时，部分没有完全拆分的韵头/韵尾也会使拆音的过程变得更加麻烦。

遗憾的是，大部分语言并不像vocaloid研发人员的母语——日语和西班牙语那样简单，虽然初版Vocaloid支持的是日语和英语。日语遵循最简单的C-V结构，且能很容易的枚举出可能的音素组合。西班牙语虽复杂一点，涉及到辅音簇和双元音，但Vocaloid为其设计了y、w、I、U，用来拆分双元音以减少声库的大小。日语和西班牙语的音标设计虽谈不上有多优秀，但也成功地将绝大多数声库的大小控制在了1GB以内。

而对于中文和韩语而言，Vocaloid的音标设计的明显就欠考虑了。由于对中文、韩文而言，Vocaloid实际采用的是CVVC方案，理想情况下，像西班牙语一样将韵头、韵腹、韵尾全部拆分，可以使声库体积达到最小，但这对音素转换系统和语音合成而言则是较大的挑战。

但Vocaloid是怎么做的呢？韩语虽然合并了一些已经不再区分的发音（例如ae和e），并且将韵尾的辅音单独拆分出来，但仍然没有考虑拥有拆分空间的韵头。如果将韩语中的10个双元音拆分，还可以进一步精简重复采样，减小声库体积。

中文更是受害的重灾区。Vocaloid将一个完整的韵头-韵腹-韵尾部分视作一个元音音素，使得中文的元音音素高达38个，无形中为制作者和使用者增加了不少工作量。

至于英语，在Synthesizer V横空出世之前，一直是歌声合成软件的一大难题。Vocaloid 4之前的英语语音库一直存在缺音、缺词的问题。英语不能像其他四种语言一样轻松地遍历发音，使得英语录音方案的编写颇具难度。而存在于韩语和中文中的双元音冗余问题也同样在英语中存在。

很显然，如果在声库文件中增加软链接以合并可替换的采样，也可以在不更改音素转换系统的情况下，通过对相同片段的复用来降低开发与使用成本。毕竟，对于采用CVVC的声库而言，a b和ia b所截取的部分可是完全一样的。

意义不明的参数

在调音的过程中，需要更改众多参数以获得不同特色的歌声。Vocaloid一下子给出了十余种参数，在歌声合成软件中算比较多的了。但凭心而论，其中有不少参数用处不明显，完全是凑数用的参数。此外，随着编辑器的升级，不少参数还进行了名称上的更改，比如性别值GEN更改为CHA，并莫名其妙地将调高/调低后倾向的性别进行了对换。

最明显的还是三个音高相关参数：PIT、PBS、POR。将音高控制拆分到这三个参数，完整的音高曲线由这三个参数计算得出。这样伴随着的就是钢琴窗画音高线和实时渲染音高的不易实施。Vocaloid的参数面板没有Synthesizer V那样的缩放键，导致PBS必须与PIT同时存在。POR，是一个仅有效作用于音符连接处的参数，用以左右平移两个音符间滑音曲线，以调整转音的早晚。调整POR确实能够得到比调整PIT更为自然的转音，但可惜的是大部分用户并不了解这一点。同时，由于POR仅能有效作用在音符连接处，照理来说更应该设计成和VEL一样的离散型参数，而不是现在的连续型参数。

BRI作为一个重要的感情参数，对其调整可以使得歌声拥有更加细腻的情感。但是，由于它的实现原理是对中高频段的成分进行操作，直接导致了BRI的另一个特性是影响音量。但对于音量的调整，Vocaloid还有一个单独的参数DYN，作用于全频段。对于一部分用户而言，他们更希望每个参数只有单一作用，像Synthesizer V的张力和响度那样。BRI这样部分功能与其他参数重合较大的参数对他们可能会较难接受。对我而言，则是习惯除了替换采样的操作外，尽可能用BRI来替代DYN参数的使用。CLE通过影响超高频率来提升清晰度，但效果也不理想，还可能导致齿音过强的问题。

VEL作为辅音速度，在日语、英语等语言可能应用较多。但在中文应用中，用户更加习惯采用拆音代替。VEL能够更改辅音的持续时间，但在V5支持预览波形之前，其对发音的影响一直不能直观实时地反馈给用户。这也是大多数中文用户弃用这一参数的原因。UTAU也有类似的参数，而Deepvocal、Synthesizer V等引擎则是通过调节音素占比来实现这个功能。OPE作为开口度，在跨语种、调整咬字等方面具有一定的用处。但却设计为离散型参数，若要改变同一个音符前后的开口程度，只能通过拆音等方法进行调整。其他引擎，例如Synthesizer V，则将其设计为连续型参数，方便改变一个音符内的开口度。

BRE作为调整呼吸度的参数，却用处不大，反而使得音质大幅度受损，导致使用的用户并不多。V5更新的AIR参数应该是其替代品，能够分离出质量较高的纯气声，但又没有将原有的BRE参数删除，导致参数重复。V5还提供了EXT参数提高激励值，但使用场景似乎不多。

GWL作为嘶吼参数，对想做出咆哮效果的用户来说比较有用，但嘶吼的效果取决于歌手与嘶吼采样的匹配度。对于昙花一现的XSY参数而言，对不同声库的混合而言十分有用，但却不能支持不同语言之间的混合，无法对跨语种起到作用。

未来的发展前景

随后而来的VX-β、V6：AI和Changer，则体现出了Vocaloid产品线的混乱与未来发展的迷茫。Vocaloid6引入了AI语音库，而VX-β是对Vocaloid的重构产品。二者更新的功能都吸取了新兴歌声合成引擎的部分长处。它们有的在内测期间采用了Romaji、Arpabet，简化了音素方案，有的支持了钢琴窗画音高线，还对大部分参数进行了简化，仅保留了PIT、PBS和DYN。而Changer则类似RVC产品，能够将人声转换为Vocaloid歌手的声音。VX-β和V6：AI的用户群并不多，希望能够在未来的开发中合并二者的长处，简化产品线的同时提升用户的体验。此外，也希望能够及时更新传统引擎，尤其是对参数和UI界面的改进，以提高V2~V5的声库合成效果。