欢迎光临散文网 会员登陆 & 注册

Talk预告 | ICLR'21 Oral 一作孔之丰: DiffWave, 一种基于降噪扩散概率模型的普适音频

2021-05-26 10:33 作者:TechBeat人工智能社区  | 我要投稿

本周为TechBeat人工智能社区309线上Talk,也是ICLR 2021系列Talk第⑪

北京时间5月27(周四)晚8点ICLR 2021 Oral一作、UCSD在读博士孔之丰的第二场Talk将准时在TechBeat人工智能社区开播!他与大家分享的主题是: “DiffWave: 一种基于降噪扩散概率模型的普适音频生成模型”,届时将针对作者ICLR 2021 Oral Paper Diffwave: A Versatile Diffusion Model For Audio Synthesis作出介绍。

为了帮助大家更好地理解工作,孔之丰上周曾在TechBeat介绍了相关生成模型的基础,对生成模型进行简短的综述,并详细介绍了DDPM和WaveNet两类模型,戳节选版回顾!


Talk·信息

主题:DiffWave,一种基于

降噪扩散概率模型的普适音频生成模型

嘉宾:加州大学圣地亚哥分校

在读博士生 孔之丰

时间:北京时间 5月27日 (周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

完整版怎么看?

扫描下方二维码,或复制链接 https://datayi.cn/w/QPDLYLrP至浏览器,一键完成预约!上线后会在第一时间收到通知哦~

Talk·提纲

音频生成具有十分广泛的应用,其包含若干种不同的任务,包括声码器(从梅尔图谱生成语音),基于类别标签的生成以及无条件的生成。传统的声码器模型都具有明显短板,如生成速度慢,占用体积大,或语音质量有较大的提升空间。在基于类别标签以及无条件的生成领域,目前尚无质量较好的纯粹基于声波数据的模型。

本文提出DiffWave模型,其既可以作为一个语音质量SOTA,占用体积小且快于实时生成的声码器,也能在基于类别标签以及无条件的生成上实现巨大的提升。

本次分享的主要内容如下:[1]. 语音合成/生成简介,与图像数据的差异以及难点,背景模型介绍

[2]. DiffWave:基于降噪扩散概率模型的普适音频生成器

[3]. 实验:声码器,基于类别标签和无条件生成,以及额外展示


Talk·参考资料

这是本次分享中将会提及的资料,建议提前预习哦!

[1]. DDPM 1: https://arxiv.org/pdf/1503.03585.pdf

[2]. DDPM 2: https://arxiv.org/pdf/2006.11239.pdf

[3]. WaveNet: https://arxiv.org/pdf/1609.03499.pdf

[4]. Others (background):

https://deepmind.com/blog/article/wavenet-generative-model-raw-audio

[5]. Talk—DiffWave基础, 生成模型介绍:https://www.techbeat.net/talk-info?id=524


Talk·提问交流

通过以下两种方式提问都将获得微信现金红包奖励哦!

方式 ①

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

方式 ②

在本文留言区直接提出你的问题,或扫描下方二维码提问!

Talk·嘉宾介绍

孔之丰
UCSD在读博士

孔之丰,本科毕业于西安交通大学数学系,现在是加州大学圣地亚哥分校计算机科学的三年级博士生,导师是Kamalika Chaudhuri, 主要的研究方向为生成模型的理论,理解与应用。在ICLR、AISTATS、AAAI等会议发表论文,获得百度美国研究院和英伟达深度学习研究院的研究实习。


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ

Talk预告 | ICLR'21 Oral 一作孔之丰: DiffWave, 一种基于降噪扩散概率模型的普适音频的评论 (共 条)

分享到微博请遵守国家法律