混乱的发展路线

Vocaloid的软件更新速度相对来说比较缓慢,平均4年迭代一个大版本。但除了V1和V2、V4和V5之间的更新较大外,其他版本之间的更新对已经熟练使用的用户而言,仅仅是功能更新,不需要额外的学习成本。

但前提也仅仅限于熟练使用的用户。2014年底发布的V4,其界面相对于2007年初发布的V2而言,并没有太大的变化。虽然在那时,与为数不多的竞品UTAU和Cevio相比已经算好的了,但相较同期的Photoshop CC 2014、Office 2013而言,它们的设计语言则显得过于落后了。

在V4到V5的这段时间内,Sharpkey等新兴引擎引入了钢琴窗画音高线等便利功能,以及基于统计或机器学习改善合成质量、减少声库大小的革新。其中,最广受好评的便是Synthesizer V,不仅大大降低了新用户的学习成本,也吸引了AHS等开发商与其深度合作。

但V5的开发可能并没有收到这些新兴引擎的影响,虽然更新了更加现代的UI,但随之而来的是臃肿的用户体验。对于产品核心用途——调音的更改几乎全部都是负优化,增加的效果器、语音包等功能不管对专业用户还是爱好者而言都显得过于鸡肋。同时,由于售价高昂、合成效果提升不明显、开发成本并没有降低,导致大量用户及厂商出走。

音素与声库的冗余

Vocaloid的合成机制是,每两个音素之间需要必须拥有一个过渡采样,才能正常合成。如果设计音素拼接方案时考虑不周,极其容易导致声库冗余采样过多,增加声库制作和使用的成本。同时,部分没有完全拆分的韵头/韵尾也会使拆音的过程变得更加麻烦。

遗憾的是,大部分语言并不像vocaloid研发人员的母语——日语和西班牙语那样简单,虽然初版Vocaloid支持的是日语和英语。日语遵循最简单的C-V结构,且能很容易的枚举出可能的音素组合。西班牙语虽复杂一点,涉及到辅音簇和双元音,但Vocaloid为其设计了y、w、I、U,用来拆分双元音以减少声库的大小。日语和西班牙语的音标设计虽谈不上有多优秀,但也成功地将绝大多数声库的大小控制在了1GB以内。

而对于中文和韩语而言,Vocaloid的音标设计的明显就欠考虑了。由于对中文、韩文而言,Vocaloid实际采用的是CVVC方案,理想情况下,像西班牙语一样将韵头、韵腹、韵尾全部拆分,可以使声库体积达到最小,但这对音素转换系统和语音合成而言则是较大的挑战。

但Vocaloid是怎么做的呢?韩语虽然合并了一些已经不再区分的发音(例如ae和e),并且将韵尾的辅音单独拆分出来,但仍然没有考虑拥有拆分空间的韵头。如果将韩语中的10个双元音拆分,还可以进一步精简重复采样,减小声库体积。

中文更是受害的重灾区。Vocaloid将一个完整的韵头-韵腹-韵尾部分视作一个元音音素,使得中文的元音音素高达38个,无形中为制作者和使用者增加了不少工作量。

至于英语,在Synthesizer V横空出世之前,一直是歌声合成软件的一大难题。Vocaloid 4之前的英语语音库一直存在缺音、缺词的问题。英语不能像其他四种语言一样轻松地遍历发音,使得英语录音方案的编写颇具难度。而存在于韩语和中文中的双元音冗余问题也同样在英语中存在。

很显然,如果在声库文件中增加软链接以合并可替换的采样,也可以在不更改音素转换系统的情况下,通过对相同片段的复用来降低开发与使用成本。毕竟,对于采用CVVC的声库而言,a bia b所截取的部分可是完全一样的。

意义不明的参数

在调音的过程中,需要更改众多参数以获得不同特色的歌声。Vocaloid一下子给出了十余种参数,在歌声合成软件中算比较多的了。但凭心而论,其中有不少参数用处不明显,完全是凑数用的参数。此外,随着编辑器的升级,不少参数还进行了名称上的更改,比如性别值GEN更改为CHA,并莫名其妙地将调高/调低后倾向的性别进行了对换。

最明显的还是三个音高相关参数:PIT、PBS、POR。将音高控制拆分到这三个参数,完整的音高曲线由这三个参数计算得出。这样伴随着的就是钢琴窗画音高线和实时渲染音高的不易实施。Vocaloid的参数面板没有Synthesizer V那样的缩放键,导致PBS必须与PIT同时存在。POR,是一个仅有效作用于音符连接处的参数,用以左右平移两个音符间滑音曲线,以调整转音的早晚。调整POR确实能够得到比调整PIT更为自然的转音,但可惜的是大部分用户并不了解这一点。同时,由于POR仅能有效作用在音符连接处,照理来说更应该设计成和VEL一样的离散型参数,而不是现在的连续型参数。

BRI作为一个重要的感情参数,对其调整可以使得歌声拥有更加细腻的情感。但是,由于它的实现原理是对中高频段的成分进行操作,直接导致了BRI的另一个特性是影响音量。但对于音量的调整,Vocaloid还有一个单独的参数DYN,作用于全频段。对于一部分用户而言,他们更希望每个参数只有单一作用,像Synthesizer V的张力和响度那样。BRI这样部分功能与其他参数重合较大的参数对他们可能会较难接受。对我而言,则是习惯除了替换采样的操作外,尽可能用BRI来替代DYN参数的使用。CLE通过影响超高频率来提升清晰度,但效果也不理想,还可能导致齿音过强的问题。

VEL作为辅音速度,在日语、英语等语言可能应用较多。但在中文应用中,用户更加习惯采用拆音代替。VEL能够更改辅音的持续时间,但在V5支持预览波形之前,其对发音的影响一直不能直观实时地反馈给用户。这也是大多数中文用户弃用这一参数的原因。UTAU也有类似的参数,而Deepvocal、Synthesizer V等引擎则是通过调节音素占比来实现这个功能。OPE作为开口度,在跨语种、调整咬字等方面具有一定的用处。但却设计为离散型参数,若要改变同一个音符前后的开口程度,只能通过拆音等方法进行调整。其他引擎,例如Synthesizer V,则将其设计为连续型参数,方便改变一个音符内的开口度。

BRE作为调整呼吸度的参数,却用处不大,反而使得音质大幅度受损,导致使用的用户并不多。V5更新的AIR参数应该是其替代品,能够分离出质量较高的纯气声,但又没有将原有的BRE参数删除,导致参数重复。V5还提供了EXT参数提高激励值,但使用场景似乎不多。

GWL作为嘶吼参数,对想做出咆哮效果的用户来说比较有用,但嘶吼的效果取决于歌手与嘶吼采样的匹配度。对于昙花一现的XSY参数而言,对不同声库的混合而言十分有用,但却不能支持不同语言之间的混合,无法对跨语种起到作用。

未来的发展前景

随后而来的VX-β、V6:AI和Changer,则体现出了Vocaloid产品线的混乱与未来发展的迷茫。Vocaloid6引入了AI语音库,而VX-β是对Vocaloid的重构产品。二者更新的功能都吸取了新兴歌声合成引擎的部分长处。它们有的在内测期间采用了Romaji、Arpabet,简化了音素方案,有的支持了钢琴窗画音高线,还对大部分参数进行了简化,仅保留了PIT、PBS和DYN。而Changer则类似RVC产品,能够将人声转换为Vocaloid歌手的声音。VX-β和V6:AI的用户群并不多,希望能够在未来的开发中合并二者的长处,简化产品线的同时提升用户的体验。此外,也希望能够及时更新传统引擎,尤其是对参数和UI界面的改进,以提高V2~V5的声库合成效果。