使用机器学习解码动物交流
过去几年,人们对使用机器学习 (ML) 方法研究非人类动物(以下简称“动物”)行为的兴趣激增 ( 1 )。一个引起特别关注的话题是使用深度学习和其他方法解码动物通信系统 ( 2 )。现在是时候应对有关数据可用性、模型验证和研究伦理的挑战,并抓住建立跨学科和倡议合作的机会了。 研究人员必须通过观察和实验来推断动物信号的含义或功能(3)。这是一项具有挑战性的任务,尤其是因为动物使用多种通信方式,包括视觉、听觉、触觉、化学和电信号——通常结合在一起,超出了人类的感知能力。观察工作的重点是记录感兴趣的信号以及详细的上下文信息,包括信号发送者和接收者的身份、状态和行为、他们的关系和过去的交互以及相关的环境条件。某些信号类型可能仅在某些情况下产生,从而引发特定的行为反应;一个典型的例子是黑长尾猴(Chlorocebus pygerythrus当它发现捕食者时会发出警报,导致群体成员寻求庇护。建立这种相关性使得能够制定关于信号功能的假设,然后可以通过实验来测试这些假设(例如,通过受控回放)。 机器学习正在帮助绘制和理解使用工具的夏威夷乌鸦( Corvus hawaiiensis )的声音。 照片:圣地亚哥动物园野生动物联盟 在查看器中打开 按照这种方法,数十年的仔细研究在理解动物交流方面取得了重大进展 ( 3 )。但存在相当大的挑战,例如避免数据收集和解释中的人类中心偏见、处理不断增加的数据量、绘制动物信号行为的全部复杂性以及实现全面的功能解码。机器学习提供了一些潜在的解决方案。 订阅科学eTOC 获取直接发送给您的《科学》最新目录!报名 可以使用日益强大的机器学习方法的丰富工具包来研究动物信号,这些方法在建模目标、数据要求和对专家注释的依赖方面各不相同。除其他方法外,这包括监督学习(例如,用于确定哪些特征准确预测人类标记的信号类型)以及无监督和自监督学习(例如,用于发现个体、群体或群体的信号库)。 自监督深度学习方法(4)很有趣,因为它们既不需要带注释的数据集,也不需要与通信潜在相关的预定义特征。它们也是“基础模型”的基础,能够跨任务进行出色的概括(5)。例如,经过训练以根据给定单词序列预测下一个单词的大型语言模型随后可用于执行更复杂的任务,例如推断语言单元的句法类别和之间的关系,或生成现实文本(5)。 可以集成不同数据模态的方法对于促进功能解码似乎特别有前途,因为它们可以提供对通信事件的更全面的描述。ML 模型已经开发出来,可以有效地学习将图像与单词、单词与语音以及跨其他模态组合的内容链接起来 ( 5 ),并且这种方法可以有效地应用于动物研究系统,例如,通过将发声与特定行为相关联。机器学习将有效地协助检测跨模式关联(和结构)这一具有挑战性的任务,而跨模式关联(和结构)反过来又可以为验证实验的设计提供信息,以建立因果关系(见图)。 由于许多机器学习方法最初是为自然语言处理而开发的,因此令人兴奋的途径已经开始开放,用于探索人类语言和动物通信系统之间备受争议的潜在相似性 ( 6 )。观察和实验工作表明,至少有一些动物,例如南方斑鸫(Turdoides bicolor),表现出人类语言特有的一些顺序敏感性和组合性(7)。机器学习方法可以利用大型数据集来搜索传统方法无法发现的微妙性和复杂性,从而有可能扩展不同类群之间共享的已知通信特征集。 越来越多的研究正在利用机器学习的潜力来研究动物交流,包括大型合作项目,例如地球物种计划 (ESP);跨尺度沟通与协调(CCAS);人类、动物和机器人之间的声音互动(VIHAR);种间互联网;CETI 项目(鲸类翻译计划)最近为抹香鲸 ( Physeter macrocephalus ) 通信的机器学习辅助工作提供了详细的路线图 ( 2 )。尽管应对这一重大研究挑战的努力正在明显加强,但该领域至少面临两个与数据相关的主要障碍:大多数方法需要大量数据(4),并且单一模态(例如发声)的录音不足以进行功能解码;需要额外的背景信息,包括有关动物行为和环境的信息。 大量音频和视频数据保存在社区档案馆(例如麦考利图书馆或 xeno-canto)中,通过被动记录阵列积累,或者可以从互联网上抓取。挖掘这些数据源将为动物交流的丰富性提供令人着迷的一瞥,但就其本身而言,此类工作不太可能在解码信号功能方面取得突破。这主要是因为通常缺乏有关发送者和接收者的身份和状态以及特定通信上下文的可靠信息。 某些类群可以获得高质量的数据集,从而能够快速实现核心模型开发目标。但很明显,需要社区动员和适当的资源配置,以确保物种专家充分参与现有记录的注释和解释,并能够领导有针对性的工作,在实验室和野外大规模收集新数据。对于野生动物,可以使用一系列方法来收集合适的数据集,包括观察焦点对象、自主摄像头和录音机、无人机和机器人以及动物可穿戴设备(生物记录仪)。一些生物记录设备可以同时收集同一个人的音频和身体运动数据,为多模态 ML 模型提供有价值的输入。 这次旅行可能是最大的回报。在广泛的分类单元上训练机器学习的镜头可能会发现动物交流行为中先前隐藏的复杂性程度令人惊讶。许多似乎只使用少数基本叫声类型的物种可能会拥有丰富的发声能力,而那些以复杂的交流方式而闻名的物种可能会表现得更加令人印象深刻。最近的一项研究强调了机器学习的发现潜力,该研究探讨了斑马雀 ( Taeniopygia guttata ) 发声行为的个体和群体差异 ( 8 )。 使用多模式数据和实验来理解动物信号 机器学习 (ML) 方法可用于集成发送者、接收者和通信环境的信息,揭示可能为有关信号功能的假设提供信息的模式,进而为受控实验的设计提供信息。机器学习辅助的动物交流研究可能会产生重要的好处,例如改善动物保护和福利,但也面临着挑战;解决道德问题是当务之急。 图:K. HOLOSKI/科学 在查看器中打开 机器学习能够在不同的分类群中生成声音(或其他信号)输出的系统清单,这将实现前所未有的比较分析,帮助研究人员查明进化驱动因素、基因组特征、生活史相关性以及认知和感觉基础。不同的通信系统。同时,个体受试者的纵向记录可以揭示沟通技巧是如何产生和成熟的(9)。 但也许最重要的是,这一领域的进步可以促进动物保护和福利。例如,在夏威夷乌鸦(Corvus hawaiiensis)等极度濒危物种中,与历史基线数据进行比较可以生成有关种群瓶颈如何改变发声能力的详细记录,从而可能导致沟通能力下降(10);可以想象,失去的与健康高度相关的叫声,例如那些与觅食、求爱或反捕食者行为有关的叫声,可能会被重新引入。此外,人们越来越认识到,社会传播的信息可能会影响种群的生存能力(11 ),虎鲸( Orcinus orca)的觅食专门化就说明了这一点。)(12)。如果声音方言可以被确立为“文化标记”,那么机器学习方法将能够自动绘制社会人口结构图,并识别面临失去关键知识风险的动物群体。 机器学习还可以用于识别与压力、不适、疼痛和逃避或积极状态(例如兴奋和玩耍)相关的动物信号。这可以为改善牲畜和其他圈养动物的生活条件提供动力,甚至可以通过对野生种群进行分析来衡量人为压力源的影响。目前,生态“声景”分析主要集中在物种检测上,但应该可以在景观层面上聆听动物的福利(13)。这个想法可以通过超越通信来进一步发展,例如,通过开发机器学习工具来检查卫星记录的动物运动轨迹,以发现疾病、痛苦或人类回避的特征。 尽管有许多潜在的好处,但机器学习辅助的动物交流研究提出了重大的伦理问题,例如在什么情况下可以接受对野生动物进行回放实验。先进的聊天机器人可能使研究人员能够在信号功能完全被理解之前与动物进行交流,从而可能造成意想不到的伤害。例如,向野生座头鲸(Megaptera novaeangliae)广播发声可能会无意中引发洋盆范围内歌唱行为的变化。这些问题必须正面解决,而不是事后才考虑。迫切需要跨利益相关者协商来制定最佳实践指南和适当的立法框架(14)。 未来还有其他挑战和机遇。例如,重要的是协调现有举措的研究工作,并加强专家在动物交流、追踪、保护和福利方面的参与。尽管技术进步迅速,该领域的进展将继续取决于对每个研究物种的生物学的仔细考虑、对交流环境的详细了解以及受控行为实验(3 )。这种专业知识对于通知和验证机器学习分析以及加强数据解释和收集工作至关重要。专业协会和网络可以帮助协调包容性社区驱动的合作。 应使用数据收集和实验验证相对简单的研究系统来开发工作流程。在圈养环境中,研究人员可以确保出色的实验控制以及最高的道德和福利标准;好的模型包括啮齿动物、蝙蝠和鸟类。这些工作可以通过对某些物种已有的广泛实地数据集的分析来补充。一旦建立了方法,就可以谨慎地将它们应用于研究难以观察的野生动物这一更具挑战性的问题。 目前机器学习的发展速度异常快。除了使用深度学习方法之外,还可以尝试其他机器学习框架,例如强化学习和元学习(即从其他机器学习模型的输出中学习)。随着模型的开发,正式的“基准测试”将是提高分析管道的可靠性和效率的关键(15),尽管必须采取保障措施以防止滥用开放资源,例如试图干扰、杀戮或武器化动物。 机器学习有可能在我们对动物通信系统的理解方面产生革命性的进步,揭示出难以想象的丰富性和复杂性。但至关重要的是,未来的进步必须用于造福于所研究的动物。