每个人都能看懂AI新闻20230911
渣渣机器翻译,没试验过,仅供参考。
SDXL 的 T2IAdapter 刚刚发布:SDXL 的最小控制模型。比最小的 ControlLoRA 小 2 倍,听说是腾讯开放的CTRLNET。

他们发布了精明、深度、深度佐伊、素描和开放姿势的检查点。
完全,真正的开源,带有Apache 2.0许可证以及培训脚本。检查点只有“~158MB”,看起来超级好。这意味着比最小的等级小 2 倍 128 控制LoRa.
博客:https://huggingface.co/blog/t2i-sdxl-adapters
权重和演示:https://huggingface.co/collections/TencentARC/t2i-adapter-sdxl-64fac9cbf393f30370eeb02f
训练脚本:https://github.com/huggingface/diffusers/blob/main/examples/t2i_adapter/README_sdxl.md
Falcon-180B-Chat是由TII基于Falcon-180B构建的180B参数因果解码器模型,专门用在聊天对话,并在Ultrachat,鸭嘴兽和Airoboros的混合物上进行微调。它根据猎鹰-180B TII许可证和可接受使用政策提供。
https://huggingface.co/tiiuae/falcon-180B-chat
Invisible-watermark是一个python库和命令行工具,用于在图像上创建不可见可能是数字水印(又名闪烁图像水印,数字图像水印)。 该算法不依赖于原始图像。
请注意,此库仍处于实验阶段,不支持 GPU 加速,请谨慎将其部署到生产环境中。默认方法 dwtDCT(频率方法的一种变体)已准备好进行动态嵌入,其他方法在仅 CPU 环境中太慢。

https://github.com/ShieldMnt/invisible-watermark
https://huggingface.co/lllyasviel/sd_control_collection
ProPainter:改进视频修复的自动PS视频


https://github.com/sczhou/ProPainter
SyncDreamer:从单视图图像生成多视2D图再生成3D模型-用到扩散法。

在本文中,我们提出了一种名为SyncDreamer的新型扩散模型,该模型从单视图图像生成多视图一致的图像。使用预先训练的大规模2D扩散模型,最近的工作Zero123展示了从物体的单视图图像生成合理的新视图的能力。然而,保持生成图像的几何形状和颜色的一致性仍然是一个挑战。为了解决这个问题,我们提出了一种同步多视图扩散模型,该模型模拟了多视图图像的联合概率分布,从而能够在单个逆过程中生成多视图一致性图像。SyncDreamer 通过 3D 感知特征注意机制在反向过程的每一步同步所有生成图像的中间状态,该机制将不同视图中的相应特征相关联。实验表明,SyncDreamer在不同视图上生成具有高度一致性的图像,因此非常适合各种3D生成任务,例如小说-视图-合成,文本到3D和图像到3D。







https://liuyuan-pal.github.io/SyncDreamer/
Tracking Anything with Decoupled Video Segmentation使用解耦视频分段跟踪任何内容,效果有点小漏洞。
视频分段的训练数据注释成本很高。 这阻碍了端到端算法对新视频分割任务的扩展,尤其是在 大词汇量设置。 为了“跟踪任何东西”,而无需对每个任务的视频数据进行训练,我们开发了一个解耦的 视频分割方法(DEVA),由特定于任务的图像级分割和 与类/任务无关的双向时间传播。 由于这种设计,我们只需要一个目标任务的图像级模型(它更便宜 train)和一个通用的时间传播模型,该模型经过一次训练并泛化 任务。 为了有效地结合这两个模块,我们使用双向传播进行(半)在线融合 从不同帧的分割假设中生成连贯的分割。 我们表明,这种解耦公式在几个方面与端到端方法相比具有优势 数据稀缺的任务,包括大词汇量视频全景分割、开放世界视频 分段、引用视频分段和无监督视频对象分段。


https://hkchengrex.com/Tracking-Anything-with-DEVA/
DoLa:通过对比层进行解码提高了大型语言模型的真实性,并一定程度解决一本正经胡说八道。其实俺感觉应该训练负面模型,就是知道对错就行。

https://github.com/voidism/DoLa
LLaMA-Adapter: Efficient Fine-tuning of LLaMA

https://github.com/OpenGVLab/LLaMA-Adapter
FLM-101B
FLM-101B是一个开源的decoder-only架构的语言模型,参数规模101B。训练过程采用模型生长技术,通过训练前期在小规模模型上快速学习知识,后期将模型逐步生长成大模型的方式,实现了千亿规模模型的低成本(~$100K)训练。 FLM-101B支持中英双语,训练上下文窗口长度为2048,得益于使用了xPos旋转位置编码,推理时窗口大小可进行良好的拓展。 为推动千亿规模LLM技术发展,FLM-101B现已全面开源。
https://huggingface.co/CofeAI/FLM-101B/blob/main/README_zh.md
Pop2Piano模型是在Pop2Piano:Pop Audio-based Piano Cover Generation中提出的,由Jongho Choi和Kyogu Lee提出。
流行音乐的钢琴翻唱被广泛喜爱,但从音乐中生成它们并不是一件容易的事。它需要伟大的 擅长弹钢琴以及了解歌曲的不同特征和旋律。与Pop2Piano一起,你 可以直接从歌曲的音频波形生成翻唱。是第一个直接生成钢琴盖的模型 来自没有旋律和和弦提取模块的流行音频。
https://huggingface.co/docs/transformers/main/model_doc/pop2piano
这个真的没看懂,不懂音乐制作,顺带送一个拥抱脸语音AI库排行榜,和一个多模态AI模型(好像没有开源)-Qwen-VL Demonstration。
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
https://huggingface.co/spaces/artificialguybr/qwen-vl
目前美国竞选已经用AI的LLM拉票了,https://nalanj.dev/posts/desantis-campaign-sms-llm/
Persimmon-8B语言模型
此存储库包含Persimmon-8B的推理代码,这是Adept的新LLM。
https://github.com/persimmon-ai-labs/adept-inference

https://aka.ms/audiobook.
DrugChat:在药物分子图上实现类似ChatGPT的功能
该存储库包含DrugChat的代码和数据:在药物分子图上启用类似ChatGPT的功能。

https://github.com/UCSD-AI4H/drugchat
AnimateDiff:为您的个性化文本到图像扩散模型设置动画,无需特定调整-更新12GB VRAM可用。动画效果尤其3秒内更稳定和无错误-感觉。

https://github.com/guoyww/animatediff/