每人都能看懂AI新闻20230907
渣机器翻译,没有自己实验过,仅供参考。
Comfy SD Krita Plugin,开源手绘动画软件和COMFYUI的合并插件

https://civitai.com/models/135081/comfy-sd-krita-plugin
试用于虚幻5的机器学习动画功能,学习代理适用于哪些人?
学习代理对于游戏开发人员来说至关重要,尤其是那些将编写AI机器人的人。我们创建此插件的目的是使开发人员在现有或新游戏中训练和部署 ML 机器人更加可行。所有熟悉机器学习的开发人员都应该发现该插件是有益的。

https://dev.epicgames.com/community/learning/courses/M3D/unreal-engine-learning-agents-getting-started/8OWY/unreal-engine-learning-agents-introduction
DiffBIR:通过生成扩散先验实现盲图像恢复


https://github.com/XPixelGroup/DiffBIR?ref=aiartweekly
Compositional Diffusion-Based
Continuous Constraint Solvers机器运动学习,可能学习错误的并加入部分存储功能,避免一本正经幻觉,计算物体点云,深度,光影,材质,并计算存储物理,点路径。


https://diffusion-ccsp.github.io/,参考演示,https://www.bilibili.com/video/BV1wm4y1K7f4/
灵活的等值面提取,用于基于梯度的
网格优化,AI优化AI生成3D模型表面材质,好像没有开源
这项工作考虑了基于梯度的网格优化,其中我们通过将其表示为标量场的等值面来迭代优化 3D 表面网格,这是摄影测量、生成建模和逆物理等应用中越来越常见的范式。现有实现采用经典等值面提取算法,如行进立方体或双轮廓;这些技术旨在从固定的已知场中提取网格,并且在优化设置中,它们缺乏表示高质量特征保留网格的自由度,或者存在数值不稳定。我们介绍了FlexiCubes,这是一种等值面表示,专门设计用于优化未知网格的几何,视觉甚至物理物镜。我们的主要见解是在表示中引入其他精心挑选的参数,从而允许对提取的网格几何体和连通性进行局部灵活调整。在优化下游任务时,这些参数通过自动微分与基础标量字段一起更新。我们的提取方案基于双行进立方体,以改进拓扑属性,并提供扩展以选择性地生成四面体和分层自适应网格。大量的实验验证了FlexiCubes在综合基准测试和实际应用中的应用,表明它在网格质量和几何保真度方面提供了显着的改进。


https://research.nvidia.com/labs/toronto-ai/flexicubes/
TokenFlow: Consistent Diffusion Features for Consistent Video Editing开源的扩散视频生成模型,提供试玩。


https://diffusion-tokenflow.github.io/
ControlMat:2D材质图片捕获的受控生成3D模型材质方法,好像没有开源

https://gvecchio.com/controlmat/
Falcon 180B 登陆 Hugging Face Hub,中东开发,恐怕是最大开源模型了。
我们很高兴地宣布由 Technology Innovation Institute (TII) 训练的开源大模型 Falcon 180B 登陆 Hugging Face! Falcon 180B 为开源大模型树立了全新的标杆。作为当前最大的开源大模型,有180B 参数并且是在在 3.5 万亿 token 的 TII RefinedWeb 数据集上进行训练,这也是目前开源模型里最长的单波段预训练。
你可以在 Hugging Face Hub 中查阅其 基础模型、聊天模型,以及其 Space 应用。
从表现能力上来看,Falcon 180B 在自然语言任务上的表现十分优秀。它在开源模型排行榜 (预训练) 上名列前茅,并可与 PaLM-2 等专有模型相差无几。虽然目前还很难给出明确的排名,但它被认为与 PaLM-2 Large 不相上下,这也使得它成为目前公开的能力最强的 LLM 之一。
从架构维度来看,Falcon 180B 是 Falcon 40B 的升级版本,并在其基础上进行了创新,比如利用 Multi-Query Attention 等来提高模型的可扩展性。可以通过回顾 Falcon 40B 的博客 Falcon 40B 来了解其架构。Falcon 180B 是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练,总共花费了约 7,000,000 个 GPU 计算时,这意味着 Falcon 180B 的规模是 Llama 2 的 2.5 倍,而训练所需的计算量是 Llama 2 的 4 倍。
其训练数据主要来自 RefinedWeb 数据集 (大约占 85%),此外,它还在对话、技术论文和一小部分代码 (约占 3%) 等经过整理的混合数据的基础上进行了训练。这个预训练数据集足够大,即使是 3.5 万亿个标记也只占不到一个时期 (epoch)。
已发布的 聊天模型 在对话和指令数据集上进行了微调,混合了 Open-Platypus、UltraChat 和 Airoboros 数据集。
‼️ 商业用途: Falcon 180b 可用于商业用途,但条件非常严格,不包括任何“托管用途”。如果您有兴趣将其用于商业用途,我们建议您查看 许可证 并咨询您的法律团队。


https://huggingface.co/blog/zh/falcon-180b,https://huggingface.co/spaces/tiiuae/falcon-180b-demo,顺带送抱脸开源模型排行榜,https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
ModelScope-Agent: 基于开源大语言模型的可定制Agent系统

https://github.com/modelscope/modelscope-agent/blob/master/README_CN.md
ReMoDiffuse:检索增强运动扩散模型
3D人体运动生成对于创意产业至关重要。 最近的进展依赖于具有领域知识的生成模型来生成文本驱动的运动,从而在捕获常见运动方面取得了实质性进展。 然而,在更多样化的运动中的表现仍然不尽如人意。 在这项工作中,我们提出了ReMoDiffuse,一个基于扩散模型的运动生成框架,它集成了一个检索机制来完善去噪过程。 ReMoDiffuse通过三个关键设计增强了文本驱动运动生成的通用性和多样性:1)混合检索在语义和运动学相似性方面从数据库中找到适当的参考。2)语义调制变压器选择性地吸收检索知识,适应检索样本与目标运动序列之间的差异。3)条件混合在推理过程中更好地利用检索数据库,克服了无分类器指导中的尺度敏感性。 大量实验表明,ReMoDiffuse 在平衡文本运动一致性和运动质量方面优于最先进的方法,特别是对于更多样化的运动生成。


https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
RoboTAP:跟踪任意少量点
以进行视觉模仿


https://robotap.github.io/
PointHPS:基于点云的级联恢复 3D 人体姿势和形状估计,目前咩有模型,只有代码。
近年来,人体姿势和形状估计(HPS)越来越受到关注。虽然大多数现有研究 关注具有固有深度模糊性的2D图像或视频中的HPS,从3D点云中研究HPS的需求激增 由于深度传感器经常用于商业设备。然而,现实世界的感官3D点通常是嘈杂的,并且 不完整,人体也可能具有高度多样性的不同姿势。为了应对这些挑战,我们提出了一个有原则的 框架,PointHPS,用于从真实环境中捕获的点云进行精确的 3D HPS,从而迭代优化点要素 通过级联架构。具体来说,PointHPS的每个阶段都执行一系列下采样和上采样操作 提取和整理局部和全局线索,并通过两个新颖模块进一步增强:1)跨阶段特征融合 (CFF) 用于多尺度特征传播,允许信息有效地流过各个阶段,以及 2) 中间特征 用于身体感知特征聚合的增强 (IFE),可在每个阶段后提高特征质量。值得注意的是,以前的基准 对于来自点云的HPS,由具有过度简化设置的合成数据(例如,SURREAL)或具有有限多样性的真实数据(例如, 马哈德)。为了便于在各种情况下进行全面研究,我们在两个大规模基准上进行实验, 包括i)具有真实商业传感器在实验室环境中捕获的各种主题和动作的数据集, ii)根据现实考虑生成的受控合成数据,例如拥挤的户外场景中穿着衣服的人。广泛 实验表明,PointHPS凭借其强大的点特征提取和处理方案,优于最先进的技术 方法在全线范围内大幅增加。消融研究验证了级联架构的有效性,由 CFF和IFE。预训练的模型、代码和数据将公开提供,以方便未来从点云对HPS进行研究。

https://caizhongang.github.io/projects/PointHPS/
Physically Grounded Vision-Language Models for Robotic Manipulation,用机器人识别各种物体数据集模型。

视觉语言模型 (VLM) 的最新进展提高了视觉问答和图像字幕等任务的性能。因此,这些模型现在处于推理物理世界的位置,特别是在机器人操纵等领域。然而,目前的VLM对常见物体的物理概念(例如,材料,脆弱性)的理解有限,这限制了它们在涉及此类物体的交互和物理推理的机器人操作任务中的实用性。为了解决这一限制,我们提出了PhysObjects,这是一个以对象为中心的数据集,包含36.9K众包和417K常见家居物品的自动物理概念注释。我们证明了在 PhysObjects 上微调 VLM 可以通过从视觉外观中捕获这些概念的人类先验来提高其对这些概念的理解。我们将这种物理基础的VLM与基于大型语言模型的机器人规划器合并到一个交互式框架中,与不使用物理基础VLM的基线相比,在需要推理物理对象概念的任务上展示了改进的计划性能。我们还说明了我们在真实机器人上物理接地的VLM的好处,它可以提高任务成功率。
物理对象数据集
为了对以对象为中心的物理推理的VLM进行基准测试和改进,我们编译了PhysObjects数据集,其中包含36.9K众包和417K自动化物理概念注释。我们图像的来源是EgoObjects数据集。 我们收集了下表中列出的八个物理概念的注释。我们根据先前的工作以及我们认为对机器人操作有用的东西来选择这些概念。但是,我们不考虑人类仅从图像中难以估计的概念,例如摩擦力。

https://iliad.stanford.edu/pg-vlm/