欢迎光临散文网 会员登陆 & 注册

更新AI新闻-20230825

2023-08-25 23:51 作者:oneds6  | 我要投稿

渣渣机翻,没测试过,只做一定汇总,尽请谅解,最近多汇总了一点,所以时间长点。

AD-Evo-Tuner Alpha:本地AnimateDiff运动模块微调器 - 超级早期热门混乱发布!

用于动画差分运动模块本地训练的环境和 GUI

这是周末之前的一个非常早期的版本,允许人们尝试微调自己的运动模块以用于Animate Diff。存在问题,并非所有用于训练的参数都暴露,验证现在不起作用,正确的设置有点神秘,缺乏功能等。但它确实允许你训练一些东西。

很快就会有更多的文档,Cubey有一个使用这种方法的训练模块,它可以在 civit.ai 上找到,但作为nsfw,我不会在这里发布它。迄今为止的结果是有希望的,但仍有许多工作要做。

我希望在周末之前发布它将允许人们尝试它并在 git 上打开问题。

包括一个默认数据集,其中包含用于初始运行的合成视频以查看它是否有效,只需输入新的项目名称并点击开始即可。如果您的终端看起来不一样,则表示您遇到了问题。就这么简单。

适用于Windows,nvidia仅3090 / 4090 - 也许?

Linux 根据 git 有一些特殊的说明。

GUI 是准系统,未经在我自己的系统以外的任何系统上测试,应该可以工作,也许它不会。

如果你愿意,你可以进入巴诺多科不和谐,告诉我它的一切错误。

https://discord.gg/mzAtxzMS

这是在图穆尔扎科夫的一个叉子上建造的。

Cubey提供的很多帮助。

https://github.com/B34STW4RS/AD-Evo-Tuner

我会尽力解决每个问题,因为它在合理范围内出现,所以如果你有任何问题,请告诉我。

谢谢。

DenseDiffusion-作者 金允姬, 李智英, 金镇华, 河正宇, 朱俊燕

现有的文本到图像扩散模型很难在给定密集标题的情况下合成逼真的图像,其中每个文本提示都提供了特定图像区域的详细说明。 为了解决这个问题,我们提出了DenseDiffusion,这是一种免训练方法,它调整了预先训练的文本到图像模型来处理如此密集的字幕,同时提供对场景布局的控制。 我们首先分析生成的图像布局与预训练模型的中间注意力图之间的关系。 接下来,我们开发一种注意力调制方法,根据布局引导引导对象出现在特定区域。 无需额外的微调或数据集,我们提高了图像生成性能,因为自动和人工评估分数都有密集的字幕。 此外,我们通过专门训练布局条件的模型获得类似质量的视觉结果。

例子

https://github.com/naver-ai/DenseDiffusion

StableVideo稳定视频:文本驱动的一致性感知扩散视频编辑-Wenhao Chai, Xun Guo, Gaoang Wang, Yan Lu

基于扩散的方法可以生成逼真的图像和视频,但它们很难编辑视频中的现有对象,同时随着时间的推移保持其外观。这会阻止扩散模型应用于实际场景中的自然视频编辑。在本文中,我们通过向现有的文本驱动的扩散模型引入时间依赖性来解决这个问题,这允许它们为编辑的对象生成一致的外观。具体来说,我们开发了一种用于扩散视频编辑的新型帧间传播机制,该机制利用分层表示的概念将外观信息从一帧传播到下一帧。然后,我们基于该机制构建了一个文本驱动的视频编辑框架,即StableVideo,可以实现一致性感知的视频编辑。大量的实验证明了我们方法的强大编辑能力。与最先进的视频编辑方法相比,我们的方法显示出卓越的定性和定量结果。


https://github.com/rese1f/stablevideo

BLENDER的生成式人工智能

AI 从文本提示或视频、图像或文本条带生成视频、图像和音频。

  • 文字转视频

  • 文本到音频

  • 文本转语音

  • 文本到图像

  • 图像到图像(优化+提示)

  • 图像到视频(优化+提示)

  • 视频到视频(优化+提示)

  • 样式选择器。

  • 种子,质量步骤,框架,文字功率,去噪,剥离功率。

  • 将文本和媒体条带批量转换为视频、音频、音乐、语音或图像。

  • 批量细化图像。

  • 批量升级和细化电影。

  • 型号卡选择器。

  • 呈现到路径选择器。

  • 呈现已完成的通知。

  • 模型卡:稳定扩散1.5,2,XL,Deep Floyd IF,Zeroscope,Animov,AudioLMD2和Bark。

  • 一键安装和卸载依赖项。

  • 生成的文件的用户定义文件路径。

  • 种子和提示添加到条带名称。

  • 要求

  • Windows或Linux(也许可以在MacOS上运行,但必须有人贡献代码才能使其工作)。

  • CUDA 支持的 Nvidia 卡,至少具有 4 GB VRAM。

https://github.com/tin2tin/Generative_AI

ReVersion-文字图片反转,比如2个卡通小狗拿着2个毛绒熊,用这个插件,生成的就可能是2个毛绒熊拿着2个卡通狗吧,呵呵。

Reversion Benchmark 由不同的关系和实体以及一组定义明确的文本描述组成。

关系和实体。我们定义了十种具有不同抽象层次的代表性对象关系,从基本空间关系(例如,“在上面”),实体相互作用(例如,“握手”)到抽象概念(例如,“被雕刻”)。涉及广泛的实体,如动物、人类、家居用品,以进一步增加基准的多样性。

示例图像和文本说明。对于每个关系,我们收集四到十个包含不同实体的示例图像。我们进一步为每个示例图像注释了几个文本模板,以不同级别的细节来描述它们。这些训练模板可用于优化关系提示。

基准方案。我们设计了 100 个推理模板,为十种关系中的每个关系组成不同的对象实体。

https://github.com/ziqihuangg/ReVersion

https://ziqihuangg.github.io/projects/reversion.html

Vary (Region)の高度なテクニック (notion.site)-可能是用AI太图克服高度物体问题-教程。

https://sizigi.notion.site/Vary-Region-5432fbcabb8e48c6a9e7057712e343f0

Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model这个效果不太好,仅供参考了。

https://yc015.github.io/scene-representation-diffusion-model/

以下是一些论文,暂时不知道开源与否。尽请谅解。

Color-NeuS:用颜色重建神经隐式曲面,更快的多角度很多张祯图片或者视频,转3D模型,颜色材质模型都可以。

抽象

从多视图图像或单目视频重建物体表面是一个基本问题 在计算机视觉中。然而,最近的大部分研究都集中在通过 隐式或显式方法。在本文中,我们将重点转移到重建网格上 与颜色结合。我们从神经体积渲染中删除与视图相关的颜色,同时保留 通过重新照明网络的体积渲染性能。从有符号距离中提取网格 函数 (SDF) 网络用于表面,每个表面顶点的颜色取自全局颜色 网络。为了评估我们的方法,我们构思了一个手部物体扫描任务,其中包含许多 遮挡和照明条件的急剧变化。我们已经为此任务收集了几个视频,并且 结果超过了任何能够重建网格和颜色的现有方法。 此外,我们的方法的性能是使用公共数据集进行评估的,包括DTU,BlendedMVS, 和OmniObject3D。结果表明,我们的方法在所有这些数据集上表现良好。

https://github.com/Colmar-zlicheng/Color-NeuS

PlankAssembly:使用学习的形状程序从三个正交视图进行稳健的 3D 重建-不知道是不是只能做组合柜。

抽象

在本文中,我们开发了一种新方法,可以将三个正交视图中的 2D 线图自动转换为 3D CAD 模型。此问题的现有方法通过将 3D 观测值反向投影到 2D 空间中来重建 3D 模型,同时保持输入和输出之间的显式对应关系。这种方法对输入中的错误和噪声很敏感,因此在人类设计师创建的输入图纸不完美的实践中经常失败。为了克服这一困难,我们利用基于变压器的序列生成模型中的注意力机制来学习输入和输出之间的灵活映射。此外,我们设计了适合生成感兴趣对象的形状程序,以提高重建精度并促进CAD建模应用。在一个新的基准数据集上的实验表明,当输入嘈杂或不完全时,我们的方法明显优于现有方法。

https://github.com/manycore-research/PlankAssembly/

更新AI新闻-20230825的评论 (共 条)

分享到微博请遵守国家法律