尽量每个人都能看懂的AI新闻20230902

2023-09-02 22:35 作者:oneds6 0人读过 | 我要投稿

渣渣机器翻译，没有用过，就当参考。

可看懂点云的LLM对话AI

https://github.com/OpenRobotLab/PointLLM

输入文字就能生成电影对话有对话和背景音，应该可以生成音乐。

https://github.com/Audio-AGI/WavJourney

通过AI识别各种图片里面内容，用文字即可并可直接用文字互相融合训练。

https://huggingface.co/papers/2305.16311

插个小网站https://ideogram.ai/，很像SD模型但是文字很好，但是因为层数算力还是差点，海报有些文字无法显示正常。

Voicemod's Text To Sing - a Hugging Face Space by Voicemod输入文本就能唱歌，效果不错，可以和META开源的文字转音乐效果类似，感觉是一个东西训练的。好像没有开源，但是有免费试玩。

https://huggingface.co/spaces/Voicemod/Text-to-Sing

临床医学的LLAMA

https://huggingface.co/wanglab/ClinicalCamel-70B

超级长128K的纱线羊驼

https://huggingface.co/NousResearch/Yarn-Llama-2-13b-128k

好像是单图可以调整注意力重点关注识别物体某一个部分。

https://github.com/Ma-Lab-Berkeley/CRATE

视频级别SAM应该是教程和模型，看上去效果不错。

https://github.com/roboflow/supervision

AI鼓手真不懂音乐，自己看看吧。

https://www.drumloopai.com/

SDXL的图生图修复，都知道，不介绍了。

https://huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.1

各种混合的用BLENDER集成CTRLNET来实现SD画图插件，效果很丰富。

https://toyxyz.gumroad.com/l/ciojz

接下来是文字生成3D的时间，

GitHub - threestudio-project/threestudio：用于文字生成3D内容生成的统一框架。效果看上去不错。

https://github.com/threestudio-project/threestudio#magic123-

貌似3D生成扩散模型，效果看上去非常好。最近一些大公司开源后，其他机构也开始活跃也放出一些作品了。

https://mv-dream.github.io/index.html

标签：

尽量每个人都能看懂的AI新闻20230902的评论 (共条)