小白的数字人计划

2023-07-26 16:59 作者:努力学习ai的小白 0人读过 | 我要投稿

大家好，我是努力学习AI的小白，我的目标是创建自己的数字人，现阶段性大家汇报一下，自己思考、技术路径、目前学习情况和遇到难点。 1.初心使命

自己思考:构建数字人的初心来源于寻梦环游记。寻梦环游记死亡不是永别,遗忘才是,那么请记住我。remember me

怎样才能不被遗忘，希望有一个自己的替身，在网上结识新朋友，讲讲自己的故事，听听新的见闻。生命有限，但岁月留痕。 2.技术储备和思考：这是个庞大的系统工程

a本地部署or云端部署：

构建一个可以使用并稳定的服务器空间，未来可以上服务器，现在还是本地部署比较合理，并节约成本。如何传递思想语言和文字（由大模型生成资料，由语音模型转换成语音，由图片模型生成图片，之后转述出来。） b语言大模型微调：

技术路径上：这是个系统工程。思想要想传播要靠语言、图像、声音。这些真的很难实现。 ChatGPT的出现让生成式人工智能又进了一步。可惜我没有魔法用不了他的API接口。不过清华大学开源了chatglm，同时github开源网站上又有了其他工具，例如闻达。可以考虑利用大语言模型进行简单的微调，训练形成自己的语言逻辑，那从现在开始就要进行写作整理文件。为文件打标签，以便未来进行训练。 c语音模型输出

现在市面上已经有很多可以训练语音的大模型，目前还没有进行这方面的试验。仅仅下载了小鱼的rvc-bate版本。和微软的音频下载地址：https://loker-page.lgwawork.com/ d动态语音

目前使用的sadtalk0.02版本。用照片驱动嘴型进行说话。图片生成目前用stable diffusion web，生成图片。目前技术实现情况（没有连成片未形成战斗力） e其他情况-部署情况

利用chatGLm一键包进行部署利用闻达一键包进行了部署利用秋叶的stable diffusion一键包进行了部署利用进化洲的sadtalker0.02版本一键包进行了部署下载微软的ttw（不知道能使用多久，经常报错） f其他情况-未部署

语音模型各项目链接Python库 3.目前已经做的项目及流程

转绘美女舞蹈，迭代三代（抖音账号被封）

1.ps转视频祯-图生图-合并成视频（缺点，闪的厉害，经常出现奇怪的结构） 2.ps转视频祯-图生图+contorlnet openposs控制+合成视频（还是闪瞎眼，并且贼慢，3060ti的显卡都冒烟了） 3.利用ebsynth插件：插件中直接拆祯+生成关键祯+生成蒙版图（由于一直安装不上默认的蒙版插件，只能利用其他插件。）+关键祯图生图+contorlnet openposs、硬边缘、tile等，生成关键祯图生图图片+调整生成图片大小和风格+ebsynth开始生成中间祯+合成视频+升祯软件加祯项目还是存在很大的缺点衣服不固定，经常变化，用关键词限制也很难。据说改进的办法是炼丹，训练一个lora，利用lora控制人物。还是有些闪，毕竟不是3d建模，有些动作还是视频生成，难以达到想要的效果。 1000个激励师项目

美女讲励志语录，传递正能量（迭代两代不温不火）利用sd生成美女图片-使用ChatGPT生成励志话术-用剪映生成语音文件-sadtalker进行图片语音生成（剪映生成有限制、需使用会员）利用sd生成美女图片-使用文心一言生成励志话术-用ttw生成语音文件-sadtalker进行图片语音生成。小说推文项目（未开始）

4.总结：知止而后能定，定而后能安，安而后能虑,虑而后能得。

技术更新太快了，现在居然出现有文生视频的软件，过去有个虚拟女友游戏，直接可以用iphone手机可以动作捕捉。兜兜转转，还是没有实现自己的数字人，我需要重新思考一下啦。最近有个考试，需要学习一下，剩余的时间不是太多。暂时告别，等考完试再回来，拜拜，我热爱的新技术，再见我的初心和梦想。

标签：

小白的数字人计划

小白的数字人计划的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

小白的数字人计划

本文作者的其他文章

小白的数字人计划的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

小白的数字人计划的评论 (共条)