欢迎光临散文网 会员登陆 & 注册

实时追踪科研动态丨7.14精选新论文,附ChatPaper综述

2023-07-14 18:17 作者:AMiner科技  | 我要投稿

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/

2023年7月14日精选新论文列表:

1.Generative Pretraining in Multimodality

链接:https://www.aminer.cn/pub/64ae259c3fda6d7f0658f3b5/

ChatPaper综述:说明了Generative Pretraining in Multimodality(多模态生成预训练)方法的关键问题:在多模态上下文中无缝生成图像和文本。该方法提出了一种名为Emu的基于Transformer的多模态基础模型,可以通过一个统一的目标进行训练,从而可以处理任何单模态或多模态的数据输入。Emu模型将视觉信号编码为嵌入向量,并与文本标记一起形成交织的输入序列。通过对下一个文本标记进行分类或回归下一个视觉嵌入向量,Emu模型在多模态序列中进行端到端训练。这种多模态的灵活性使得可以在规模上探索各种预训练数据源,例如交织帧和文本的视频,交织图像和文本的网页,以及大规模的图像-文本对和视频-文本对。Emu模型可以作为图像到文本和文本到图像任务的通用多模态接口,并支持上下文中的图像和文本生成。在广泛的零样本/少样本任务中,包括图像字幕、视觉问答、视频问答和文本到图像生成等任务,Emu模型表现出比最先进的大型多模态模型更出色的性能。同时还展示了通过指导调整的多模态助手等扩展功能,并展示了令人印象深刻的性能。

2.Self-consistency for open-ended generations

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b436a7/

ChatPaper综述:论文介绍了一种改进大规模预训练语言模型生成输出质量和一致性的新方法,即自一致性。自一致性已经被证明对于具有固定答案的问题是一种有效的方法,可以选择得到最高票数的答案。本文介绍了一种泛化的自一致性框架,扩展了其适用性,不仅适用于具有固定答案的问题。通过广泛的模拟实验,我们证明我们的方法能够从候选集中稳定地选择出最优或接近最优的生成结果。我们还提出了轻量级无参数的相似性函数,在代码生成、自动形式化和摘要任务中表现出显著和一致的改进,即使没有访问令牌日志概率。我们的方法几乎没有计算开销,不需要辅助重新排名模型或对现有模型进行修改。

3.HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b43716/

ChatPaper综述:论文指出了个性化生成模型中存在的时间和存储容量需求问题,并提出了一种名为HyperDreamBooth的解决方案,可以从一个人的单张图像中高效生成个性化权重,以在不同的环境和风格中生成一个人的面部,保留高保真度和特征细节。该方法比现有方法DreamBooth和Textual Inversion快很多倍,并且模型大小仅为普通DreamBooth模型的1/10000。

4.Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b4370c/

ChatPaper综述:生成视频以进行视觉叙事是一个繁琐而复杂的过程,通常需要实时拍摄或图形动画渲染。为了解决这些挑战,作者提出了一种利用现有视频片段并通过自定义外观来生成连贯叙事视频的方法。作者提出了一个由两个功能模块组成的框架:动作结构检索模块,根据查询文本提供具有所需场景或动作背景的视频候选项;结构指导的文本到视频合成模块,根据运动结构和文本提示生成与情节对齐的视频。为了确保视频之间的视觉一致性,作者提出了一种有效的概念个性化方法,通过文本提示可以指定期望的角色身份。通过大量实验证明,该方法在各种现有基准测试中表现出显著优势。

5.Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b436fc/

ChatPaper综述:现有的编码器在处理多样化概念时存在的限制。现有的编码器通常仅限于单一领域,无法处理多样的概念。为了解决这个问题,作者提出了一种不需要任何专门的数据集或先验信息的领域不可知方法。作者介绍了一种新颖的对比正则化技术,该技术可以在保持高度规范性的同时使得预测的嵌入接近潜在空间中可编辑区域,通过将预测的标记推向其最近的现有CLIP标记。实验结果证明了该方法的有效性,并显示了与未经规范化模型预测标记相比,学习到的标记更语义化。这导致了更好的表征,实现了优于先前方法的性能,并具有更大的灵活性。

6.T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation

链接:https://www.aminer.cn/pub/64b0d4b63fda6d7f06b400fa/

ChatPaper综述:介绍了现有的文本到图像生成模型在将具有不同属性和关系的对象有效组合到一个复杂和连贯的场景中时面临的困难。针对这一问题,作者提出了一个名为T2I-CompBench的综合基准测试,其中包含来自3个类别(属性绑定、对象关系和复杂组合)和6个子类别(颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合)的共计6,000个组合性文本提示。此外,作者还提出了一些专门设计的评估指标来评估组合性文本到图像生成模型的表现。作者介绍了一种新方法,即基于奖励驱动的样本选择的生成模型微调(GORS),以提升预训练的文本到图像生成模型的组合性能力。作者通过大量实验和评估在T2I-CompBench上对之前的方法进行了基准测试,并验证了他们所提出的评估指标和GORS方法的有效性。

7.In-context Autoencoder for Context Compression in a Large Language Model

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b43712/

ChatPaper综述:介绍了一个名为In-context Autoencoder (ICAE)的模型,用于在大型语言模型(LLM)中进行上下文压缩。该模型包含两个模块:一个可学习的编码器通过从LLM中采用LoRA进行调整,将长上下文压缩成有限数量的存储槽,以及一个固定的解码器,即目标LLM,可以根据存储槽进行各种目的的条件选择。首先,我们使用大规模文本数据对ICAE进行预训练,同时使用自编码和语言建模目标,使其能够生成准确和全面代表原始上下文的存储槽。然后,我们使用少量指导性数据对预训练的ICAE进行微调,以增强其与各种提示的互动,以产生理想的回答。实验结果表明,使用我们提出的预训练和微调范式学习的ICAE能够有效地产生具有4倍上下文压缩的存储槽,目标LLM可以很好地对其进行条件选择,以回应各种提示。这些有希望的结果表明ICAE在解决长上下文问题方面具有重要意义,并且在实际中减少LLM推理的计算和内存开销的潜力,提出了进一步研究LLM上下文管理的努力。该研究的代码和数据将很快发布。

8.InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b4370e/

ChatPaper综述:介绍了InternVid这个大规模视频为中心的多模态数据集,该数据集能够为多模态理解和生成提供强大且可转移的视频文本表示。InternVid数据集包含超过700万个视频,持续时间近76万个小时,共产生了2.34亿个视频片段,并伴随着总计41亿个单词的详细描述。该研究的核心贡献在于开发了一种可扩展的方法,通过大型语言模型(LLM)自主构建高质量的视频文本数据集,并展示其在大规模学习视频语言表示中的有效性。具体而言,我们利用多尺度方法生成与视频相关的描述。此外,我们还介绍了基于ViT-L的视频文本表示学习模型ViCLIP。通过对InternVid进行对比学习,该模型展示出领先的零样本动作识别和竞争性的视频检索性能。除了识别和检索等基本视频理解任务,我们的数据集和模型具有广泛的应用。它们特别有利于生成交替的视频文本数据,用于学习面向视频的对话系统,推进视频到文本和文本到视频生成的研究。这些资源为对多模态视频理解和生成感兴趣的研究人员和实践者提供了工具。

9.Generating Benchmarks for Factuality Evaluation of Language Models

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b436e7/

ChatPaper综述:在部署语言模型之前,衡量其在特定领域生成事实错误信息的倾向是很重要的。已有的事实生成评估方法侧重于从语言模型中抽样的事实,因此不能控制评估的事实集,并可能低估罕见和不太可能的事实。为此,作者提出了一种名为FACTOR的方法,通过语料库转换自动生成用于评估语言模型事实性的基准。FACTOR可以自动将感兴趣的事实语料库转化为基准,评估语言模型生成来自语料库的真实事实与类似但不正确的陈述之间的倾向。作者使用这一框架创建了两个基准:Wiki-FACTOR和News-FACTOR。研究结果表明:(i)基准分数随着模型规模的增加而增加,并且在将检索功能与语言模型相结合时得到改进;(ii)基准分数与困惑度相关,但这两个度量标准在模型排名上并不总是一致的;(iii)当困惑度和基准分数不一致时,基准分数更好地反映了开放式生成中的事实性,经由人类标注者的评估得出。

10.Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

链接:https://www.aminer.cn/pub/64b0d4cc3fda6d7f06b434c4/

ChatPaper综述:说明了使用大型语言模型(GPT-4)进行生物医学知识提取的问题。作者发现虽然大型语言模型已经在结构化生物医学文本方面具有相当的能力,但通过自我监督学习将其压缩为任务特定的学生模型,可以获得比开箱即用的大型语言模型更多的收益,包括成本、效率和白箱模型访问等额外优势。通过在不使用任何标记数据的情况下,在标准的不良药物事件(ADE)提取评估中,GPT-3.5压缩的PubMedBERT模型达到了与监督式最先进模型相当的准确性。尽管体积小了1000多倍,但压缩模型在F1值上超过了其教师模型GPT-3.5超过6个绝对点,并且超过了GPT-4超过5个绝对点。对于压缩模型选择(例如PubMedBERT vs BioGPT)和ADE提取架构的消融研究,为生物医学知识提取的最佳实践提供了启示。类似的增益也在其他标准生物医学知识提取任务(如基因疾病关联和受保护健康信息)中通过压缩得到,进一步说明了这种方法的优势。

11.Pluggable Neural Machine Translation Models via Memory-augmented Adapters

链接:https://www.aminer.cn/pub/64af76ed3fda6d7f0647133a/

ChatPaper综述:虽然神经机器翻译(NMT)模型在通用领域表现良好,但是控制其生成行为以满足不同用户需求仍然具有挑战性。由于为每个用户需求从头开始学习一个新模型的昂贵训练成本和数据稀缺性挑战,研究者提出了一种基于记忆增强的适配器来以可插拔的方式引导预训练的NMT模型。具体来说,作者构建了一个基于用户提供的文本样本的多粒度记忆,并提出了一种新的适配器架构来结合模型表示和检索结果。他们还提出了一种使用记忆dropout的训练策略,以减少NMT模型和记忆之间的虚假依赖。通过对风格特定和领域特定实验进行验证,结果表明该方法可以优于几种典型的可插拔基线模型。


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在ChatPaper页面中,可以选择基于单篇文献进行对话和基于全库(个人文献库)对话,可选择上传本地PDF或者直接在AMiner上检索文献。

实时追踪科研动态丨7.14精选新论文,附ChatPaper综述的评论 (共 条)

分享到微博请遵守国家法律