水音中之人未来的工作计划(2022年版)

2022年3月29日 仅作搬运和机翻
我也试着组织自己的思想。
ーーーーーーーーーーーーーーーーーーーー
◯为什么先为谈话软件录制音频?
最近(上月底~本月初)我录制了一个ITA语料库和一个名为ROHAN4600的声音,用于TTS(文本到语音转换)。
原因是
如何使用水音的说明
(1)在视频中,
(2)对水声拉尔,
你不想让我解释如何吗? 我以为。
└创建教程
所以我首先关注歌唱声源,并优先考虑它。
・此外,例如,如果您可以轻松生成“上帝般的”说话部分,那会更容易...... 还有那个。
・目前,Boilero和VOICEVOX等谈话软件在niconico很热门。
(此外,还有一个人此时已经使用使用 ROHAN4600 的模型启用了语音合成。 我不使用语调信息,所以第二个看起来像粪便。 (我认为它可以在 DTM 中使用))
https://colab.research.google.com/drive/1VqrxXQS2koUlE8Y7weMlx5n6apXyW9AG?usp=sharing
ーーーーーーーーーーーーーーーーーーーー
◯ 关于站立图片
目前,我们尚未能够收集到关于需要什么样的东西的信息。
如果您想将其作为谈话软件进行操作,是否方便支持PSDtoolKit...?
我不知道。。。
ーーーーーーーーーーーーーーーーーーーー
◯NNSVS(ENUNU)库(AI合成)
有迹象表明AI合成的质量正在显着提高,因此我正在测试CVVC声源的原始声源,这对于很久以前(4年前)录制的UTAU很难使用。
嗯,有动机,但目前,质量是一条微妙的线,可以接受与否,所以很有可能被拥有。
(或者更确切地说,录音量是非凡的。 在大约 15 个连续音调时,连续音阶的质量终于...... 这是我的印象。 但它会自动适应是的感觉,所以有未来......
(这是撰写本文时NNSVS的官方质量)
https://soundcloud.com/r9y9/20220323-kiritan-test-svs-digimon
ーーーーーーーーーーーーーーーーーーーー
◯UTAU音源
・已记录但未分发的项目
└声音嘶哑(第一音阶)(原始声音设置尚不可用)
由于它是一个微妙的音源,我们计划使其成为FANBOX限定的声源。
・录音
└尝试解析
这是一个带有新麦克风的 Parse 再现声源。
我认为它可能是一个与 Parse2 没有太大区别的声源,所以我们计划让它成为 FANBOX 有限的声源...... 但是,语音质量很微妙,所以我可能会按原样将其存放。
(这是本封面中使用的声源)
https://www.nicovideo.jp/watch/sm40071704
・测试阶段
└简体中文
该名单尚未确定。
我想把它区分为一个可以区分通风和未吸气声音的列表,但由于我自己的需求、周围人的需求和 ARPABET 的便利性之间的平衡,以及“英语太自由了,不是吗??
└中文
我正在录音,但麦克风是新的,所以它被重新录制了。
虽然我有一些动力,但它的卡路里很重,所以录音太难激励了......
(如果要录制中文CVVC 1音调,最好连续录制10个日语音符,这是一种忏悔水平。
・概念阶段
我说,“添加一条线来浮动。
https://minelaru.fanbox.cc/posts/1948285
因为麦克风是新的,所以我认为将声音较弱的声源作为具有全新日语列表的新声源发布会更现实。
但是,我认为还有很长的路要走。
此外,由于采用了新的麦克风,我正在考虑再次录制相当于 14 音连续声音的声音。
这很难不是吗
・低于预期
相反,我没有任何想法,因为我觉得没有其他需要用 UTAU 声源录制的东西。
ーーーーーーーーーーーーーーーーーーーー
◯兼容苹果电脑
・除非您手动输入前缀,否则它不起作用。
似乎 Windows 上的 UTAU 和 UTAU-Synth 具有神秘不同的规格,因此您必须在笔记本中完整输入所有内容,例如“a# 3a”才能工作。
(UTAU-Synth似乎具有自动连续声音,但由于周围的规范,似乎没有应用前缀.map,而且它不会自动变成连续声音似乎是地狱。
不,即使它被称为“prefix.map”(前缀),在UTAU中有许多相关软件由于某种原因不考虑前缀。
就我个人而言,我认为[ToneName][preVowel](空格)[Lyric][Variation]的形式更聪明,所以我想记住它。 )
・压缩方法
考虑到压缩率,我指定 rar 作为声源,但这也更接近 Windows。
*解决策
- 准备前缀.map和所有oto.ini的修改版本。
└老实说,我想准备一个程序,可以从更改每个程序的麻烦中批量转换...... (准备数据→更改为“a#1a ki1”“a#3a”,并将前缀.map的规范更改为后缀而不是前缀。 )
・将压缩设置为7z或其他东西
ーーーーーーーーーーーーーーーーーーーー
◯首页
老实说,我忙于其他事情,我没有任何构建的愿景,因为我无法激励自己学习 HTML/CSS/Javascript...... (◞‸◟)
我也有一部分想知道在上述HowTo的维护进行时是否会将其作为旁注进行维护,但是仍然有很多地方的任务充满了声源和标签,这是完全不可能的。
ーーーーーーーーーーーーーーーーーーーー
◯软件
・重采样器覆盖写入器
这里我在想,我想添加一个可以强制原始声音设置的功能...... 我在想。。。
通过能够强制维护每个深度参数,您将能够使用从 UTAU 神奇修改的原始声音设置的声源......
换句话说,一种使连续音调中的“a-ki”和音符中的“i-ka”声音的技术。
... 但是,对于那些不太了解此示例的人来说,这将是一个胡言乱语的功能,因此优先级相当低......
ーーーーーーーーーーーーーーーーーーーー
这更难(^言^)
●您可以制作通话软件...
如果您使用所有完整上下文标签将 ROHAN4600 标记为“几乎全部手动”,并为其提供语调信息以在 NNSVS 中学习,
是不是可以合成与 VOICEVOX 兼容的语音(语调和音调长度可以调整)...... 这对我来说都是一个热门话题。
ーーーーーーーーーーーーーーーーーーーー
● 使用 NNSVS 库容易吗? 我想知道是否可以制作英语声源...
AI合成具有“微调”的概念。
录制很多声源(大约 100 个连续音调),学习日语录制一点英语(或中文)语音并应用它,然后以良好的方式合成“复音英语声源”,这已经成为我的一个话题。
如果仅仅通过录制一次英语就能合成一种良好的感觉,而不是在经历苦涩的同时强行录制外语声源的多音阶,那不是更容易吗?
我不知道该怎么做^~
赞