欢迎光临散文网 会员登陆 & 注册

小白的数字人计划

2023-07-26 16:59 作者:努力学习ai的小白  | 我要投稿

大家好,我是努力学习AI的小白,我的目标是创建自己的数字人,现阶段性大家汇报一下,自己思考、技术路径、目前学习情况和遇到难点。 1.初心使命

自己思考:构建数字人的初心来源于寻梦环游记。 寻梦环游记 死亡不是永别,遗忘才是,那么请记住我。remember me

怎样才能不被遗忘,希望有一个自己的替身,在网上结识新朋友,讲讲自己的故事,听听新的见闻。生命有限,但岁月留痕。 2.技术储备和思考:这是个庞大的系统工程

a本地部署or云端部署:

构建一个可以使用并稳定的服务器空间,未来可以上服务器,现在还是本地部署比较合理,并节约成本。 如何传递思想语言和文字(由大模型生成资料,由语音模型转换成语音,由图片模型生成图片,之后转述出来。) b语言大模型微调:

技术路径上:这是个系统工程。思想要想传播要靠语言、图像、声音。这些真的很难实现。 ChatGPT的出现让生成式人工智能又进了一步。可惜我没有魔法用不了他的API接口。不过清华大学开源了chatglm,同时github开源网站上又有了其他工具,例如闻达。 可以考虑利用大语言模型进行简单的微调,训练形成自己的语言逻辑,那从现在开始就要进行写作整理文件。为文件打标签,以便未来进行训练。 c语音模型输出

现在市面上已经有很多可以训练语音的大模型,目前还没有进行这方面的试验。 仅仅下载了小鱼的rvc-bate版本。 和微软的音频 下载地址:https://loker-page.lgwawork.com/ d动态语音

目前使用的sadtalk0.02版本。用照片驱动嘴型进行说话。 图片生成 目前用stable diffusion web,生成图片。 目前技术实现情况(没有连成片未形成战斗力) e其他情况-部署情况

利用chatGLm一键包进行部署 利用闻达一键包进行了部署 利用秋叶的stable diffusion一键包进行了部署 利用进化洲的sadtalker0.02版本一键包进行了部署 下载微软的ttw(不知道能使用多久,经常报错) f其他情况-未部署

语音模型 各项目链接Python库 3.目前已经做的项目及流程

转绘美女舞蹈,迭代三代(抖音账号被封)

1.ps转视频祯-图生图-合并成视频(缺点,闪的厉害,经常出现奇怪的结构) 2.ps转视频祯-图生图+contorlnet openposs控制+合成视频(还是闪瞎眼,并且贼慢,3060ti的显卡都冒烟了) 3.利用ebsynth插件:插件中直接拆祯+生成关键祯+生成蒙版图(由于一直安装不上默认的蒙版插件,只能利用其他插件。)+关键祯图生图+contorlnet openposs、硬边缘、tile等,生成关键祯图生图图片+调整生成图片大小和风格+ebsynth开始生成中间祯+合成视频+升祯软件加祯 项目还是存在很大的缺点 衣服不固定,经常变化,用关键词限制也很难。据说改进的办法是炼丹,训练一个lora,利用lora控制人物。 还是有些闪,毕竟不是3d建模,有些动作还是视频生成,难以达到想要的效果。 1000个激励师项目

美女讲励志语录,传递正能量(迭代两代不温不火) 利用sd生成美女图片-使用ChatGPT生成励志话术-用剪映生成语音文件-sadtalker进行图片语音生成(剪映生成有限制、需使用会员) 利用sd生成美女图片-使用文心一言生成励志话术-用ttw生成语音文件-sadtalker进行图片语音生成。 小说推文项目(未开始)

4.总结:知止而后能定,定而后能安,安而后能虑,虑而后能得。

技术更新太快了,现在居然出现有文生视频的软件,过去有个虚拟女友游戏,直接可以用iphone手机可以动作捕捉。 兜兜转转,还是没有实现自己的数字人,我需要重新思考一下啦。 最近有个考试,需要学习一下,剩余的时间不是太多。暂时告别,等考完试再回来,拜拜,我热爱的新技术,再见我的初心和梦想。

小白的数字人计划的评论 (共 条)

分享到微博请遵守国家法律