欢迎光临散文网会员登陆 & 注册

16G以上显存N卡进，文字生成视频本地整合包体验！

2023-08-03 14:49 作者:IT教程精选 0人读过 | 我要投稿

16G以上显存N卡进，文字生成视频本地整合包体验！

文本到视频生成扩散模型, 通过输入英文描述文本，返回符合文本描述的视频。文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。案例如下所示。

Robot dancing in times square.（机器人在时代广场跳舞）

Clown fish swimming through the coral reef. （小丑鱼在珊瑚中游泳）

学术Fun将上述工具制作成一键启动包，点击即可使用，避免大家配置Python环境出现各种问题，下载地址： https://xueshu.fun/2804/

整合包使用教程

下载压缩包下载地址： https://xueshu.fun/2804/

解压后，如下图所示，双击bat文件运行

打开软件如下图所示

浏览器访问http://127.0.0.1:7860/，即可在浏览器里操作啦！

输入英文视频描述，点击提交，3090显卡等待50秒左右，即可生成视频，软件的视频预览有点问题，点击右上角的下载按钮即可下载到本地

标签：

16G以上显存N卡进，文字生成视频本地整合包体验！的评论 (共条)