欢迎光临散文网 会员登陆 & 注册

尽量每个人都能看懂的AI新闻20230902

2023-09-02 22:35 作者:oneds6  | 我要投稿

渣渣机器翻译,没有用过,就当参考。

可看懂点云的LLM对话AI

https://github.com/OpenRobotLab/PointLLM

输入文字就能生成电影对话有对话和背景音,应该可以生成音乐。

https://github.com/Audio-AGI/WavJourney

通过AI识别各种图片里面内容,用文字即可并可直接用文字互相融合训练。

https://huggingface.co/papers/2305.16311

插个小网站https://ideogram.ai/,很像SD模型但是文字很好,但是因为层数算力还是差点,海报有些文字无法显示正常。

Voicemod's Text To Sing - a Hugging Face Space by Voicemod输入文本就能唱歌,效果不错,可以和META开源的文字转音乐效果类似,感觉是一个东西训练的。好像没有开源,但是有免费试玩。

https://huggingface.co/spaces/Voicemod/Text-to-Sing

临床医学的LLAMA

https://huggingface.co/wanglab/ClinicalCamel-70B

超级长128K的纱线羊驼

https://huggingface.co/NousResearch/Yarn-Llama-2-13b-128k

好像是单图可以调整注意力重点关注识别物体某一个部分。

https://github.com/Ma-Lab-Berkeley/CRATE

视频级别SAM应该是教程和模型,看上去效果不错。

https://github.com/roboflow/supervision

AI鼓手真不懂音乐,自己看看吧。

https://www.drumloopai.com/

SDXL的图生图修复,都知道,不介绍了。

https://huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.1

各种混合的用BLENDER集成CTRLNET来实现SD画图插件,效果很丰富。

https://toyxyz.gumroad.com/l/ciojz

接下来是文字生成3D的时间,

GitHub - threestudio-project/threestudio:用于文字生成3D内容生成的统一框架。效果看上去不错。

https://github.com/threestudio-project/threestudio#magic123-

貌似3D生成扩散模型,效果看上去非常好。最近一些大公司开源后,其他机构也开始活跃也放出一些作品了。

https://mv-dream.github.io/index.html

尽量每个人都能看懂的AI新闻20230902的评论 (共 条)

分享到微博请遵守国家法律