16G以上显存N卡进,文字生成视频本地整合包体验!
16G以上显存N卡进,文字生成视频本地整合包体验!
文本到视频生成扩散模型, 通过输入英文描述文本,返回符合文本描述的视频。文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。案例如下所示。
Robot dancing in times square.(机器人在时代广场跳舞)

Clown fish swimming through the coral reef. (小丑鱼在珊瑚中游泳)

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置Python环境出现各种问题,下载地址: https://xueshu.fun/2804/
整合包使用教程
下载压缩包 下载地址: https://xueshu.fun/2804/

解压后,如下图所示,双击bat文件运行

打开软件如下图所示

浏览器访问http://127.0.0.1:7860/,即可在浏览器里操作啦!
输入英文视频描述,点击提交,3090显卡等待50秒左右,即可生成视频,软件的视频预览有点问题,点击右上角的下载按钮即可下载到本地
