欢迎光临散文网 会员登陆 & 注册

每个人都能听懂的AI新闻20230914

2023-09-14 23:09 作者:oneds6  | 我要投稿

渣机器翻译,没实验过,仅供参考。

InstaFlow扩散生成模型新方法:极度简化,一步生成,可能就是把运作曲线变成数学上直线提高速度,真的好速度。

InstaFlow模型是一步生成器,它直接将噪声映射到图像,避免扩散模型的多步采样。在我们配备 A100 GPU 的机器上,推理时间约为 0.1 秒,与原始稳定扩散相比节省了 ~90% 的推理时间。

https://github.com/gnobitab/InstaFlow

https://zhuanlan.zhihu.com/p/603740431

Collage Diffusion UI可以用几个图片,调节融合度,加文字,叫几个图片完全AI PS成一个正常图片,就是PS移花接木,提供在线试玩。

https://zhuanlan.zhihu.com/p/603740431

http://collagediffusion.stanford.edu/edit

https://vsanimator.github.io/collage_diffusion/

Tree-Structured Shading Decomposition AI进行分析树结构着色分解


我们研究从单个图像推断树结构表示以进行对象着色。先前的工作通常使用参数化或测量表示来对阴影进行建模,这既不可解释也不容易编辑。我们建议使用阴影树表示,它结合了基本的着色节点和合成方法来分解对象表面着色。 阴影树表示使不熟悉物理着色过程的新手用户能够以高效直观的方式编辑对象着色。 推断阴影树的一个主要挑战是推理问题涉及离散树结构和树节点的连续参数。我们提出了一种混合方法来解决这个问题。我们引入自回归推理模型来生成树结构和节点参数的粗略估计,然后通过优化算法对推断的阴影树进行微调。我们展示了合成图像、捕获的反射率、真实图像和非现实矢量图的实验,允许下游应用,如材质编辑、矢量化着色和重新照明。

https://chen-geng.com/inv-shade-trees

Glide AI 用连连看低代码和自然语言生成软件或者使您软件加入集成AI功能-应该是,现在可以试用。

https://www.glideapps.com/ai

EasyPhoto 是一个基于SDWebUI插件生态构建的开源软件,专注于利用AIGC技术实现真/像/美的AI-写真。我们致力于拓展该技术的应用范围,降低使用门槛,并为广大用户提供便利。PS就是一个某AI相机开源版,早就说这个AI某相机压根就是割韭菜,商汤的AI有人付费那是值得点,那是真的需要云计算,真的高科技。

https://github.com/aigc-apps/sd-webui-EasyPhoto/blob/main/COVENANT_zh-CN.md

TECA:文本引导生成和编辑合成3D头像,其实头像应用太少,但是生成配饰不错,还是登了。

https://yfeng95.github.io/teca/

Diffusers,一个扩散器库,用于构建自己扩散模型用。

https://github.com/huggingface/diffusers

拥抱聊天 (huggingface.co),拥抱脸官方开源免费试用对话AI,基本都是开源模型

https://huggingface.co/chat/

FlagEmbedding将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。


https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md

动态网格感知辐射场,通过AI生成的3D模型,AI再进行生成空间物理现象。

从将 NeRF 集成到传统图形管道的系统角度来看,在逼真的神经辐射场 (NeRF) 体积中嵌入多边形网格资产,以便可以渲染它们并以与 NeRF 物理一致的方式模拟其动态,这一点尚未得到充分探索。本文设计了网格和NeRF在渲染和仿真过程中的双向耦合。我们首先回顾网格和NeRF的光传输方程,然后将它们提炼成一个简单的算法,以更新具有任意反弹次数的投射光线的辐射和吞吐量。为了解决路径追踪器假设的线性色彩空间与标准NeRF使用的sRGB色彩空间之间的差异,我们使用高动态范围(HDR)图像训练NeRF。我们还提出了一种估计光源并在NeRF上投射阴影的策略。最后,我们考虑如何将混合表面体积公式与支持布体、刚体和软体的高性能物理模拟器有效集成。完整的渲染和模拟系统可以以交互速率在GPU上运行。我们表明,混合系统方法在网格插入的视觉真实感方面优于替代方案,因为它允许从体积NeRF介质到表面上的真实光传输,这会影响反射/折射表面的外观和场景告知的漫反射表面的照明。

https://mesh-aware-rf.github.io/

Learning Disentangled Avatars with Hybrid 3D Representations,可能用大量人视频训练模型,可以达到有影视游戏级别骨骼形变。

已经付出了巨大的努力来学习可动画和逼真的人类化身。为此,对显式和隐式3D表示进行了大量研究,以对整个人类(例如,身体,衣服,面部和头发)进行整体建模和捕获,但就表示效果而言,这两种表示都不是最佳选择,因为人类化身的不同部分具有不同的建模需求。例如,网格通常不适合对服装和头发进行建模。 受此启发,我们提出了DisEntangLed AvaTArs(DELTA),它用混合显式 - 隐式3D表示对人类进行建模。 DELTA将单目RGB视频作为输入,并生成具有独立身体和衣服/头发层的人类头像。 具体来说,我们展示了DELTA的两个重要应用。对于第一个,我们考虑人体和衣服的解开,在第二个中,我们解开脸部和头发。为此,DELTA 使用基于网格的显式参数化 3D 模型表示身体或面部,并使用隐式神经辐射场表示衣服或头发。为了实现这一目标,我们设计了一个端到端的可微分渲染器,将网格集成到体积渲染中,使DELTA能够直接从单眼视频中学习,而无需任何3D监督。 最后,我们展示了如何轻松地将这两个应用程序结合起来对全身化身进行建模,以便头发、面部、身体和衣服可以完全解开但联合渲染。这种解开使头发和衣服能够转移到任意的体型。 我们通过展示DELTA在解开重建、虚拟服装试穿和发型转移方面的良好表现,实证验证了DELTA解开的有效性。为了促进未来的研究,我们还发布了一个开源管道,用于研究混合人类化身建模。

https://yfeng95.github.io/delta/

LEAP HAND:低成本、高效、拟人化的机器人手带AI学习.效果好,重物不太清楚,很多类似开源小机器人基本可以复现.

灵巧的操作一直是机器人技术中长期存在的挑战。而 机器学习技术已经显示出一些前景,结果在很大程度上是 目前仅限于模拟。这主要归因于缺乏 合适的硬件。在本文中,我们介绍了LEAP Hand,一种低成本的灵巧 以及用于机器学习研究的拟人化手。与以前的对比 手,LEAP手具有新颖的运动学结构,可实现最大的灵活性 无论手指姿势如何。LEAP手是低成本的,可以组装成4 小时,成本为 2000 美元,来自现成的零件。它能够 在长时间内持续施加大扭矩。我们证明 LEAP手可用于在现实世界中执行多项操作任务 -- 从视觉远程操作到从被动视频数据和 sim2real 中学习。 LEAP Hand在所有方面都明显优于其最接近的竞争对手Allegro Hand。 我们的实验虽然是成本的 1/8。

http://www.leaphand.com/

http://www.leaphand.com/sim2real

https://github.com/leap-hand/LEAP_Hand_API

NExT-GPT: Any-to-Any Multimodal LLM,NExT-GPT,第一个端到端MM-LLM,可感知输入并以文本,图像,视频和音频的任意组合(任意对任意)的AI LLM。

https://next-gpt.github.io/

Gradio:在 Python 中构建机器学习 Web 应用程序

Gradio 可用于:

为客户/协作者/用户/学生演示机器学习模型。

使用自动可共享链接快速部署模型,并获得有关模型性能的反馈。

在开发过程中使用内置的操作和解释工具以交互方式调试模型。

https://github.com/gradio-app/gradio

PhotoVerse:使用文本到图像扩散模型进行图像锁定定制文字生成改变,目前好像只能用人像上。

个性化文本到图像生成已成为一种功能强大且广受欢迎的工具,使用户能够根据其特定概念和提示创建自定义图像。但是,现有的个性化方法遇到了多种挑战,包括调谐时间长、存储要求大、每个标识需要多个输入图像,以及保留标识和可编辑性方面的限制。为了解决这些障碍,我们提出了PhotoVerse,这是一种创新的方法,在文本和图像域中都结合了双分支调节机制,提供了对图像生成过程的有效控制。此外,我们引入了面部身份丧失作为一种新组成部分,以增强训练期间的身份保护。值得注意的是,我们提出的 PhotoVerse 消除了测试时间调整的需要,并且仅依赖于目标身份的单个面部照片,从而显着降低了与图像生成相关的资源成本。经过一个训练阶段后,我们的方法可以在几秒钟内生成高质量的图像。此外,我们的方法可以产生包含各种场景和风格的各种图像。广泛的评估证明了我们的方法的卓越性能,它实现了保留身份和促进可编辑性的双重目标。

https://photoverse2d.github.io/

AstroLLaMA:迈向天文学专业基础模型

https://huggingface.co/universeTBD/astrollama

VLLM AI加速省内存器

大型语言模型 (LLM) 的高吞吐量服务需要一次批处理足够多的请求。但是,现有系统陷入困境,因为每个请求的键值缓存(KV 缓存)内存都很大,并且会动态增长和收缩。如果管理效率低下,碎片和冗余重复可能会严重浪费此内存,从而限制批大小。为了解决这个问题,我们提出了PagedAttention,这是一种受操作系统中经典虚拟内存和分页技术启发的注意力算法。最重要的是,我们构建了vLLM,这是一个LLM服务系统,可实现(1)KV缓存内存的近乎零浪费和(2)在请求内和请求之间灵活共享KV缓存,以进一步减少内存使用。我们的评估表明,与最先进的系统(如FasterTransformer和Orca)相比,vLLM在相同延迟水平下将流行LLM的吞吐量提高了2-4倍。使用更长的序列、更大的模型和更复杂的解码算法,这种改进更为明显。

https://github.com/vllm-project/vllm

Blended-NeRF现有神经辐射场中的对镜头对象3D模型生成混合和替换。

比如用文字生成普通松子3D模型换成绿水晶松子3D模型。

https://github.com/orig333/Blended-NeRF


每个人都能听懂的AI新闻20230914的评论 (共 条)

分享到微博请遵守国家法律