声优和翻译的末日?关于AI的闲聊(2023.1.6)
AI可能会很快改变你身边的一切。别跟AI绘画纠结了,看看别的。
设想一下,B站专栏转视频这个功能,可能过一段时间就可以用自己的声音制作配音了。你还可以自己设计声音的细节。
评论区以后可以直接用耳朵听了。而且是真人对话形式的。
弹幕以后也是可以跟着视频一起听的,哈哈哈。会不会吵死。
可以听到故去的名人和亲人非常拟真的和你说话了。
完全和真人一样的无人值守、纯AI直播或者AI客服。根据GPT-X提供的对话文本,形成和真人一样的语音回答你的一切问题。比如,以后每个人都可以拉个小窗跟你的偶像单聊。
不用学外语也可以跟老外用自己的声音无障碍交流。口译员也不是不可替代的。这个实现难度比其他要大一些,不过看上去已经不是天方夜谈了。
AI和现有网络环境的融合,可能比十年前智能手机的迭代普及都要快。
下面说正经的。
关于乌龟TTS的一些信息:
可以接受中文等非英文样本训练,不过暂时只能输出相应声音的英文文本语音。输入中文文本或拼音也可以得到结果,但听上去会很诡异。除了相似度和拟人程度,它还可以根据文本形成多人对话,或者进一步融合训练好的人声或对人声进行感情色彩等多方面的设计。未来应该是相当于Stable diffusion人声版的样子吧。这只是一大堆开源tts中一个不算火爆的项目。如果不是有人已经拿它做出了全自动播客(爬取网络文本,GPT-3模拟成对话,乌龟TTS生成语音),可能很多人还不知道它的存在。以后的自媒体、甚至营销号都不会是现在的模样了。
据说已经有人在开发中文和俄文的版本。按开发者的意思,他只跟那些承诺会开源的人合作(英文版的训练成本是6个月6台3090,这不是一般人能搞得来的。)
合成速度较慢和对样本素质要求较高是目前的两个缺点。这个合成速度还不足以威胁到现有的AI配音、声优或者翻译,但是如果你看过我前面发的几个例子的话,应该能想象到它发展起来之后有多可怕。只需要提供2-3个10秒以内的高质量人声样本,就可以按任何英文文本制作跟真人配音质量差不多的有声书、播客,甚至模拟一个多人访谈出来。如果不考虑效益比的话,现在这些都已经可以实现了。比如说你想给自己的短视频做个英文配音、之前请的声优跑路或者挂掉了,或者对一些项目声音做后期的修补,这个tts已经是非常实用的选择了。
关于AI绘画,我觉得已经没什么值得讨论的了。像在B站这样每天被二次元擦边和抵制AI刷屏,应该会误导很多人对AI的认知。我自己前段时间也被某些流传的假图误导了。我看大部分内行都厌倦这种鸡同鸭讲的争论了。新的模型和论文都研究不过来了,谁有工夫听你的抱怨呢。
我感觉这个领域正在逐渐地专业化和工程师化(我指的是使用者),Prompt engineering 的时代已经过去了,新的创意属于对N个开源模型和其他AI工作流的整合。不能自动化的操作都是浪费时间。
这么说吧,以后私人训练成本会越来越低,普及程度也会越来越高,你可以把它当作是一个新的必备技能,不用上不了班了(你是老板的话可以无视)。
另外补充一句,AI不会画手这个问题已经解决了。又有一堆艺术家要准备被打脸了。开源免费的东西你跟它较什么劲呢,能用就用,该学就学呗。
(完)