尽量每个人都能看懂的AI新闻20230902
渣渣机器翻译,没有用过,就当参考。
可看懂点云的LLM对话AI

https://github.com/OpenRobotLab/PointLLM
输入文字就能生成电影对话有对话和背景音,应该可以生成音乐。

https://github.com/Audio-AGI/WavJourney
通过AI识别各种图片里面内容,用文字即可并可直接用文字互相融合训练。

https://huggingface.co/papers/2305.16311
插个小网站https://ideogram.ai/,很像SD模型但是文字很好,但是因为层数算力还是差点,海报有些文字无法显示正常。

Voicemod's Text To Sing - a Hugging Face Space by Voicemod输入文本就能唱歌,效果不错,可以和META开源的文字转音乐效果类似,感觉是一个东西训练的。好像没有开源,但是有免费试玩。

https://huggingface.co/spaces/Voicemod/Text-to-Sing
临床医学的LLAMA

https://huggingface.co/wanglab/ClinicalCamel-70B
超级长128K的纱线羊驼

https://huggingface.co/NousResearch/Yarn-Llama-2-13b-128k
好像是单图可以调整注意力重点关注识别物体某一个部分。


https://github.com/Ma-Lab-Berkeley/CRATE
视频级别SAM应该是教程和模型,看上去效果不错。


https://github.com/roboflow/supervision
AI鼓手真不懂音乐,自己看看吧。

https://www.drumloopai.com/
SDXL的图生图修复,都知道,不介绍了。

https://huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.1
各种混合的用BLENDER集成CTRLNET来实现SD画图插件,效果很丰富。

https://toyxyz.gumroad.com/l/ciojz
接下来是文字生成3D的时间,
GitHub - threestudio-project/threestudio:用于文字生成3D内容生成的统一框架。效果看上去不错。

https://github.com/threestudio-project/threestudio#magic123-
貌似3D生成扩散模型,效果看上去非常好。最近一些大公司开源后,其他机构也开始活跃也放出一些作品了。



https://mv-dream.github.io/index.html