实时追踪科研动态丨7.25精选新论文,附ChatPaper综述

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。

结合前沿动态订阅功能,精选arXiv当日热门新论文,形成论文综述,让大家更加快速了解前沿动态。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达ChatPaper页面:https://www.aminer.cn/chat/g/
2023年7月25日精选新论文列表:
1.Evaluating the Ripple Effects of Knowledge Editing in Language Models
https://www.aminer.cn/pub/64bf49b13fda6d7f062822c1/
说明了在语言模型中进行知识编辑时会出现错误产生的问题。现有的编辑方法主要关注是否成功注入一个个体事实,并且其他主题的类似预测是否改变。然而,摘要认为这种评估方法存在局限性,因为注入一个事实会引起“涟漪效应”,即模型需要更新其他相关事实。为了解决这个问题,摘要提出了一种新的评估标准,考虑编辑对相关事实的影响。根据这些标准,摘要构建了一个包含5K个实际编辑的诊断基准“ripple”,捕捉了多种类型的涟漪效应。摘要对著名的编辑方法在“ripple”上进行评估,结果显示当前的方法不能对模型的知识引入一致的改变。此外,摘要发现在我们的基准测试中,一个简单的上下文编辑基线获得了最好的分数,这表明模型编辑是一个有希望的研究方向。
2.3D-LLM: Injecting the 3D World into Large Language Models
https://www.aminer.cn/pub/64bf49b63fda6d7f062827a7/
论文提出了一个问题,即目前的大型语言模型(LLMs)和视觉语言模型(VLMs)在包含空间关系、适用性、物理学、布局等更丰富概念的三维物理世界中没有根基。作者通过提出一种新的3D-LLMs模型,旨在将三维世界引入大型语言模型,以解决这个问题。这个模型可以接受三维点云及其特征作为输入,执行多种三维相关任务,包括描述、密集描述、三维问答、任务分解、三维定位、三维辅助对话、导航等。通过使用设计的三种提示机制,作者能够收集超过30万个涵盖这些任务的三维语言数据。为了高效地训练3D-LLMs模型,作者首先利用一个三维特征提取器从渲染的多视角图像中获取三维特征,然后使用二维VLMs模型作为背骨来训练3D-LLMs模型。引入三维定位机制后,3D-LLMs模型能够更好地捕捉三维空间信息。在ScanQA数据集上的实验表明,我们的模型在比较基线模型时取得了更好的性能(例如,BLEU-1得分超过现有最先进得分9%)。此外,对于3D描述、任务组合和三维辅助对话的实验表明,我们的模型优于二维VLMs模型。定性实例还表明,我们的模型可以执行超出现有LLMs和VLMs范围的更多任务。
3.RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
https://www.aminer.cn/pub/64bf49a33fda6d7f0628086a/
论文提出了一种名为RLCD的方法,用于通过对比蒸馏(contrast distillation)的方式,让语言模型按照自然语言的原则进行对齐,而无需使用人类反馈。RLCD通过使用对比正例和负例生成的模拟偏好对来训练一个偏好模型,然后利用强化学习来改进一个基本的未对齐语言模型。实验证明,RLCD在无害性、有用性和故事大纲生成这三个不同的对齐任务上,以及在7B和30B模型规模上的偏好数据模拟中,都优于RLAIF(Bai等人,2022b)和上下文蒸馏(Huang等人,2022)的基线方法。
4.A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
https://www.aminer.cn/pub/64bf49013fda6d7f06275319/
论文指出了目前在真实世界的网站上,使用预训练的大型语言模型(LLM)进行自主网络导航时仍存在以下问题:(1)开放域问题,(2)有限的上下文长度,(3)HTML缺乏归纳偏差。为解决这些问题,研究人员介绍了WebAgent,一种由LLM驱动的代理程序,可以根据自然语言指令完成真实网站上的任务。WebAgent通过将指令分解为规范的子指令来提前规划,将长HTML文档总结为与任务相关的片段,并通过生成的Python程序在网站上执行任务。研究人员设计了用于基于代码生成的Flan-U-PaLM,以及用于规划和总结的新的预训练LLM HTML-T5,使用局部和全局注意机制以及混合长跨度去噪目标。实证结果表明,他们的方法使真实网站上的任务成功率提高了50%以上,并且HTML-T5是解决基于HTML任务的最佳模型;与MiniWoB网页导航基准测试上的先前最先进技术相比,成功率提高了14.9%,并在离线任务规划评估中具有更好的准确性。因此,摘要说明了在真实网站上进行任务完成仍存在的问题。
5.WOUAF:Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models
https://www.aminer.cn/pub/6482a38ed68f896efa8db3a0/
论文指出了生成模型的迅速发展,可以从文本描述中创建超逼真的图像,但同时也引发了关于虚假信息的关切。传统的虚假检测机制虽然在一定程度上提供了缓解,但在追究对合成图像的恶意使用负责方面存在不足。该论文提出了一种新颖的模型指纹技术,可以对生成的图像进行归属,从而作为对模型误用的潜在对策。该方法根据每个用户的唯一数字指纹修改生成模型,将唯一标识符印记到生成内容上,可以追溯到用户。该方法将微调引入到文本到图像(T2I)任务中,使用稳定扩散模型,在对输出质量影响很小的情况下实现了近乎完美的归属准确性。该论文严格检查了我们方法在两种不同场景下的保密性:一种是恶意用户试图检测指纹,另一种是用户对我们方法有全面的了解。同时还评估了我们方法在面对用户通常执行的各种图像后处理操作时的鲁棒性。通过对稳定扩散模型的广泛评估,我们的方法为可追溯的模型分发和负责任的使用提供了一个有前途和新颖的途径。
6.Optimized Network Architectures for Large Language Model Training with Billions of Parameters
https://www.aminer.cn/pub/64bf48f93fda6d7f0627475c/
论文指出了在构建用于训练大规模语言模型(LLM)的任何到任何网络时存在的问题。传统上,所有的GPU都需要进行高带宽的任何到任何通信,以实现接近最佳的训练性能。然而,本文发现LLMs的通信模式是独特的,只有小组GPU之间需要进行高带宽的任何到任何通信,而这些组内以外的通信是微不足道、稀疏且均匀分布的。为了解决这个问题,作者提出了一种新的网络架构,它将集群分为一组由非阻塞任何到任何高带宽互连方式连接的GPU集合,称为HB域。在HB域之间,网络只会连接有通信需求的GPU。作者将这种网络连接方式称为“仅限轨道”的连接,并表明相比于现有的任何到任何Clos网络,我们提出的网络架构可以将网络成本降低高达75%,同时不会影响LLM训练的性能。
7.Question Decomposition Improves the Faithfulness of Model-Generated Reasoning
https://www.aminer.cn/pub/64bf48f93fda6d7f062745ba/
目前大型语言模型(LLMs)在完成更困难的任务时,验证其行为的正确性和安全性变得更加困难的问题。一种解决这个问题的方法是通过促使LLMs在回答问题时生成逐步推理(CoT),以使其将推理过程外化。推理过程可以让我们检查模型执行任务时使用的过程。然而,这种方法依赖于所陈述的推理能够忠实地反映模型的实际推理,而这并不总是情况。为了提高CoT推理的忠实度,我们通过将问题分解为子问题来实现模型生成推理。基于分解的方法在问答任务上取得了强大的性能,有时接近CoT的性能,同时在一些最近提出的指标上提高了模型陈述推理的准确性。通过强制模型在不同的语境中回答更简单的子问题,我们极大地提高了模型生成推理相对于CoT的忠实度,同时仍然实现了部分CoT的性能提升。我们的结果表明,可以提高模型生成推理的忠实度;进一步的改进可能会导致能够验证LLM行为正确性和安全性的推理。
8.Less is More: Focus Attention for Efficient DETR
https://www.aminer.cn/pub/64bf48f93fda6d7f06274926/
研究了目标检测模型中的一个问题,即传统编码器结构中所有的标记都被平等对待,这会带来冗余的计算负担。最近的稀疏化策略利用了一部分有信息量的标记来减少注意力的复杂性,通过稀疏编码器来维持性能。然而,这些方法往往依赖于不可靠的模型统计,而且简单地减少标记的数量会大大限制检测性能,限制了这些稀疏模型的应用。该研究提出了一种名为Focus-DETR的方法,它通过对更有信息量的标记进行关注,在计算效率和模型精度之间取得更好的平衡。具体地,研究者通过使用双重注意力重建了编码器,其中包括一个标记评分机制,该机制考虑了来自多尺度特征图的对象的定位和类别语义信息。研究者有效地舍弃了背景查询,并基于评分增强了细粒度对象查询的语义交互。与相同设置下的最先进的稀疏DETR-like检测器相比,我们的Focus-DETR在复杂性相当的情况下,在COCO数据集上达到了50.4AP(+2.2)。
9.Is attention all you need in medical image analysis? A review
https://www.aminer.cn/pub/64bf49013fda6d7f062752c7/
探讨了医学图像分析中的一个问题:光在注意力上是否足够?它指出目前常见的CNN模型忽略了图像中的全局像素关系,限制了它们对不同全局信息的“广义化”能力。近年来,随着人工智能的进步,出现了可以从数据中学习全局关系的Transformer模型。然而,完整的Transformer模型需要在大规模数据上进行训练,并涉及巨大的计算复杂性。因此,提出了轻量级的注意力和Transformer部件(Transf / Attention)作为完整Transformer的替代品。最近,CNN和Transf / Attention架构之间的融合模型出现了越来越多的趋势,使得混合模型的新时代得以到来。该研究对存在的混合CNN-Transf / Attention模型进行了概述、评价了当前和未来的机会和挑战,并介绍了一个综合分析框架,用于探索科学和临床一般化机会,从而可以激发新的数据驱动领域一般化和适应方法的研究。