人工智能辅助决策：用认知建模的方法来推断潜在的依赖策略

2023-06-15 10:12 作者:海俊频道 0人读过 | 我要投稿

Heliodoro Tejeda 0001-6726-46581、 Aakriti、 Padhraic& 马克-斯蒂弗斯《计算脑与行为》第5卷，第491-508页（2022年）

摘要

在各种决策应用中，人类可以随时获得人工智能的帮助。为了充分了解这种联合决策的功效，首先必须了解人类对人工智能的依赖性。然而，在如何研究联合决策和如何在现实世界中实践联合决策之间存在着脱节。更多的时候，研究人员要求人类在显示人工智能协助之前提供独立的决定。这样做是为了明确人工智能协助对人类决策的影响。我们开发了一个认知模型，使我们能够推断出人类对人工智能协助的潜在依赖策略，而不要求人类做出独立的决定。我们通过两个行为实验验证了该模型的预测。第一个实验遵循一个并发的范式，在这个范式中，人类在决定问题的同时也看到了人工智能的帮助。第二个实验遵循一个顺序范式，即在人工智能援助可用之前，人类对决策问题进行独立判断。该模型预测的依赖策略密切跟踪人类在两个实验范式中所采用的策略。我们的模型提供了一种原则性的方法来推断对人工智能援助的依赖，并可用于扩大对人与人工智能合作的调查范围。

简介

在过去的十年里，人工智能被用于协助人类的领域越来越多，在预测问题的背景下提供建议。这些人工智能推荐系统的例子包括在法律背景下做出保释决定（Kleinberg等人，2018），检测消费者评论中的欺骗（Ott等人，2011），在诊断成像中做出医疗决定（Esteva等人、2017；Patel等人，2019；Rajpurkar等人，2020），在法医分析中识别人脸（Phillips等人，2018），以及对天文图像进行分类（Wright等人，2017）。伴随着人工智能决策辅助工具的这种广泛采用，人们对调查人工智能辅助在协作决策环境中的功效的兴趣也在不断增长（Yin等人、2019；Park等人，2019；Zhang等人，2021；Poursabzi-Sangdeh等人，2021；Buçinca等人，2021；Kumar等人，2021；Chong等人，2022；Becker等人，2022）。

为了研究这种人工智能辅助决策，研究人员已经设计了各种工作流程。一些工作流程要求人类首先提供一个独立的决定，然后显示人工智能的建议，然后人类可以用它来更新他们的最终决定（Yin等人，2019；Poursabzi-Sangdeh等人，2021；Chong等人，2022）。其他工作流程在预测问题的同时提出人工智能建议，人类可以决定遵循建议或忽略它（Rajpurkar等人，2020；Sayres等人，2019）。最后，少数研究通过人为地延迟人工智能建议的呈现（Buçinca等人，2021年；Park等人，2019年）或仅在请求时提供人工智能建议（Kumar等人，2021年；Liang等人，2022年），迫使个人花费时间思考决策问题。在这项工作中，我们专注于上述人工智能辅助决策的两个工作流程，并将其称为范式；详细的说明可以在图1中找到。我们把第一个范式称为顺序范式，即只有在人类提供了独立的判断之后才会显示人工智能的建议，并且人类可以选择修改他们的初始判断。我们把第二种模式称为并发模式，即人工智能建议是与预测问题同时显示的。

顺序范式提供了关于人类对人工智能的依赖的直接见解，其基础是人类的两个判断：最初的独立判断和接受人工智能建议后的最终判断。这种范式使实验者更容易分离出人工智能建议对人类决策的影响。然而，在许多现实世界的应用中，人类用户在提供人工智能协助之前并不独立做出决定，因为提供人工智能的建议可以立即简化工作流程并节省时间。并发范式为研究人工智能辅助决策提供了一个替代的环境。并行范式的一个缺点是数据解释的基本模糊性--不清楚如何评估人工智能决策辅助对人类用户的有用性。由于在提供人工智能建议之前，没有最初的人类判断，所以没有直接的经验性观察来了解人类在决策中的任何变化。在同时进行的范式中，任何观察到的人类和人工智能之间的一致可能是因为人类改变了他们的判断并接受了人工智能的建议，或者人类已经得出了独立于人工智能的相同判断。那么，我们如何评估人工智能的协助对人类决策的影响？

人工智能辅助决策的顺序范式和并发范式的说明（最上面两行）。无人工智能辅助范式（下行）被用作并发范式的控制条件。

我们的研究有三个主要目标。首先，我们开发了一个用于人工智能辅助决策的并行范式的计算认知模型。该认知模型提供了一种原则性的方法来推断人类对人工智能助手的潜在依赖性，尽管在一个人得到人工智能建议的时候，并没有直接观察到其转换行为。我们通过收集行为研究中的经验数据来验证该计算模型，该研究同时使用了顺序和并发的范式。顺序范式的数据提供了与并发范式的比较，并提供了一个测试来评估计算框架的优点。我们证明，该模型在并发范式中对依赖行为的预测与在顺序范式中观察到的依赖行为在质量上是相似的。此外，我们还证明了该模型可以推广到同时进行的试验中。

在我们的第二个目标中，我们使用认知建模的方法来理解人类的依赖政策如何取决于与人类和人工智能相关的一些因素。以前的研究表明，人类对自己的决定的信心会影响依赖人工智能协助的倾向（Lu和Yin，2021；Pescetelli等人，2021；Wang等人，2022）。此外，对人工智能的依赖也受人工智能对其决策的信心影响（Zhang等人，2020）。另一个贡献因素是人工智能的整体准确性。在以前的一些研究中，只使用了具有固定准确度的单一人工智能模型；例如，人工智能模型的准确度与人类的表现相当（Zhang等人，2020）或高于人类的表现（Lai和Tan，2019；Pescetelli等人，2021）。少数研究已经调查了不同的人工智能准确性对依赖策略的影响（Yin等人，2019）。在我们的实证范式中，我们研究了人类对人工智能准确性的多个层次的依赖是如何变化的。这使得我们能够更细致地了解人工智能辅助工具的准确性对人类依赖行为的影响。此外，我们还调查了参与者的信心和人工智能的信心分数是如何影响参与者所使用的逐次试验的依赖策略的。

在我们的第三个目标中，我们使用计算模型来量化人类采用的依赖策略的有效性。在某些情况下，人们在与人工智能合作时采取次优的依赖政策。例如，已经发现，如果人们看到算法犯错，他们会更愿意使用自己的（不太准确的）预测而不是算法（Dietvorst等人，2015）。在另一项研究中，人们对自动系统给予了过多的信任（Cummings，2017）。对人工智能建议的过度依赖和不足可能取决于特定的任务领域和互动方法（Promberger和Baron，2006；Castelo等人，2019；Logg，2017）。在这些先前的研究中，依赖性是在总体水平上评估的，而我们的认知建模方法使我们能够估计依赖性的逐次变化，这取决于参与者的信心状态和AI对特定问题实例的信心水平等因素。对于自我和人工智能信心的特定组合（例如，低自信心和高人工智能信心）以及人类和人工智能整体准确性的特定组合，我们可以预期联合决策的准确性要比人类或人工智能单独的好（Steyvers等人，2022）。一个经验性的问题是参与者是否能够采用这样的政策。我们将参与者采用的依赖政策与最优政策进行了比较，并表明在我们的实验中，人们在采用人工智能建议方面相当有效。

认知模型

在描述计算模型之前，我们特别注意到同时接受建议的范式的一些关键方面，这也是模型设计的动机。在实验中，参与者必须预测一组图像的分类标签以及与他们的决定相关的信心水平。每个参与者在两种实验条件下交替进行。在控制（无援助）条件下，参与者在没有人工智能的帮助下表明他们的预测。在人工智能协助条件下，我们采用并行的方法；人工智能根据人工智能的信心分数，通过突出显示类别标签，提供一套推荐的预测。参与者可以以任何方式使用这些建议，以最大限度地提高自己的准确性（实验中的用户界面图见图2）。这个条件的一个重要方面是，参与者的预测反映了他们自己的独立决策（在这个范式中是不可观察的）和人工智能预测的结合。换句话说，参与者用来依赖人工智能的预测并将其与自己的预测结合起来的政策并不能从他们的行为中直接观察到。

人工智能辅助条件下的行为实验界面图解

计算模型的主要目标是推断出潜在的建议采纳政策。政策可以由许多因素决定，如参与者的信心状态和人工智能的信心分数以及人工智能的整体准确性。我们开发了一个分层贝叶斯模型，不仅在群体层面而且在单个参与者的层面上对政策进行推断。在模型的第一部分，贝叶斯项目-反应模型（Fox，2010）被应用于无援助条件，以推断出个人能力的差异以及不同项目（即预测问题）的难度差异。在模型的人工智能辅助部分，这些潜在的人和项目参数被用来解释参与者的观察预测，这取决于他们（不可观察的）无辅助预测和决定参与者转向人工智能预测或保持自己的预测的可能性的建议接受政策。图3直观地显示了解释有人工智能协助和无人工智能协助的人类预测的计算模型的图形模型。

人工智能辅助决策模型的图形化模型。在没有援助的条件下，_{ij}rij 和 x_{ijxij 和 _jz j 被观察。在提供人工智能援助的条件下，_{ij}rij 和 _{ij}xij 是潜在的， y_{ijk} ， z_jz j ， c_{jk} ，和\eta_{jk}ηjk 。为了视觉上的清晰，板块符号被省略了

在援助之前对人类的决定进行建模

没有人工智能协助的人类预测的计算模型是基于贝叶斯项目-反应模型（Fox，2010）。项目-反应模型可以方便地模拟准确度的个体差异以及项目难度的差异（项目是指参与者必须分类的单个图像）。为了对人类的预测进行建模，我们使用了一个三参数的IRT模型来捕捉概率\theta_{i,j}i,j ，即一个正确的反应是由人 i对项目j做出：

\begin{aligned}\begin{aligned}\log \left( frac{theta _{i,j}}{1-theta _{i,j}} `right)&= s_{j} a_i - d_{j}\ end{aligned}\end{aligned}(1)

人的参数a_i 是一个能力参数，决定了人在各项目中的总体表现。项目参数 _jd j 捕捉项目难度的差异，而项目参数 _jsj 捕捉辨别力：项目对高能力和低能力个体的区分倾向。

在一个典型的IRT模型中，做出正确反应的概率，theta ，被用来对答案的正确性进行采样。然而，在我们的模型中，我们用预测的标签来编码个人的反应。让x_{i,j}i,j 代表 i人在没有人工智能帮助的情况下对j项目的预测。每个预测都涉及到从一组L标签中的选择，即x\in\{1,\ldots,L\}x∈{1,...,L} 。让_jz j 代表项目 j的真实标签。我们假设i人在项目j上产生正确的标签_jz j ，概率是theta _{i,j}i,j ，否则从所有其他标签中统一选择，如下：

\begin{aligned}\p( x_{i,j} = m )&= {left\{ `array}{ll}.\Theta _{i,j} &{}。\纹理{ if }z_j = m （1-theta _{i,j}）/(L-1) &{} 。\教科书{ if }z_j = m end{array}\right.} } } }结束{aligned}。\end{aligned}(2)

可以考虑各种模型的扩展，允许反应偏差，如一些标签先验地比其他标签更受欢迎。

参与者不仅做出预测，而且还表达与他们的预测相关的信心水平，r_{i,j} i,j 。在实验范式中，信心水平是从一小部分标签中选择的， r_{i,j}是在{mathrm {low}}中的。\在\{mathrm {低},\mathrm{中},\mathrm{高}}r i,j ∈{低，中，高} 。在这个模型中，我们假设与较高准确率相关的预测平均会导致较高的置信度，但在项目层面，从准确率到置信度的映射是有噪声的。为了捕捉准确性和置信度之间的嘈杂关系，我们使用了一个基于有序Probit模型的简单生成模型：

\begin{aligned}\begin{aligned} r_{i,j}&sim {OrderedProbit}( θ _{i,j} , v_i , σ _i )\end{aligned}.\end{aligned}(3)

在这个生成模型中，标准偏差为sigma _i 的正态分布噪声被添加到正确的概率中 θ_{i,j} 。然后将得出的值与一组由参数 v_i定义的区间进行比较，包含该值的区间决定了得出的置信度。 v_i 的变化可以使被试者对反应量表有不同的使用（即相对频繁地使用某个特定的置信度），而 σ_i 决定（反过来）准确性和置信度的相关程度。请注意，参数 \sigma 和 v是针对个人的，以考虑到信心生成过程中的个体差异。附录1提供了更多关于有序Probit模型的细节。

根据建议建立人类决策的模型

在存在建议的人类决策模型中，让y_{i,j,k} 代表人 i在考虑了人工智能算法k的建议后对项目j做出的观察预测。我们包括对算法类型的依赖，因为我们的经验范式将呈现不同算法的人工智能建议。在接受建议的模型中，我们假设参与者最初做出自己的预测x_{i,j} ，与人工智能建议无关，但他们的最终决定 y_{i,j,k} 可以受到人工智能建议的影响。请注意，在无援助条件下，独立的预测 x_{i,j} 和相关的信心水平 r_{i,j} 是可以直接观察到的，但在人工智能援助条件下，它们是潜在的。然而，我们可以使用上一节中的IRT模型来模拟关于一个人在没有提供人工智能建议的情况下会做出的预测和信心水平的反事实情况。具体来说，我们可以使用公式1-3中的生成模型，根据被试的总体技能（a）以及特定项目的难度（d_j）的信息，生成对x_{i,j} 和 r_{i,j} 的预测。脚注 1。

在接受建议的模型中，我们假设参与者将保持他们原来的决定x_{i,j} ，如果它与人工智能的建议一致，用 c_{j,k}表示。然而，当原来的决定与人工智能的建议不一致时，我们假设参与者以概率α _{i,j,k} ，切换到人工智能的建议。因此，我们可以将参与者选择标签 m作为其最终预测的概率建模如下：

\begin{aligned}\p( y_{i,j,k} = m )&= {left\{ `array}{ll}.\alpha _{i,j,k} &{}。\纹理{ if }x_{i,j}\c_{j,k} = m_{j,k} = 1 &{}。\1 &{{}......text{ if }x_{i,j} = m 楔 c_{j,k} = m\0 &{}\0 &{}...text{ if }x_{i,j}\x_{i,j} = m 楔 c_{j,k} = m\end{array}\right.}end{aligned}。\end{aligned}(4)

变量\alpha} 决定了参与者 i对算法k中与项目j有关的人工智能建议的信任倾向。在下一节中，我们将描述这个潜变量如何取决于参与者的信心状态以及人工智能的信心得分等因素。

,j}i,j 在我们的实验范式中是潜伏的。我们不需要明确地模拟首先对独立预测 x_{i,j}i,j ，然后对最终预测 y_{i,j,k} ,j,k 的过程，而是可以通过边缘化掉 x_{i,j}xi,j 来简化生成过程：

\begin{aligned}\p( y_{i,j,k} = m )&= {left\{ `array}{ll}.\θ _{i,j}+ (1-\theta _{i,j}) Α _{i,j,k} &{}\如果}Z_{j}=mz_{j} = m c_{j,k} = m\frac{1-theta _{i,j}}{L-1} + \left( 1-frac{1-theta _{i,j}}{L-1} 右) \alpha _{i,j,k} &{} 。\纹理{ if }z_{j}\c_{j,k} = m\frac{1-theta _{i,j}}{L-1} ( 1-alpha _{i,j,k} ) &{} 。\教科书{ if }z_{j}\楔子 c_{j,k}。\ne m \end{array}\right.} } } }结束{aligned}。\end{aligned}(5)

在这个方程式中，参与者选择标签m的概率被分成三种不同的情况。第一种情况反映了参与者独立做出正确的决定（恰好与人工智能的建议一致）或最初做出不正确的决定但后来采用了正确的人工智能建议的概率。第二种情况反映了参与者最初选择了一个不正确的决定（恰好同意人工智能的建议）或做出了与人工智能不同的另一个决定但随后采用了错误的人工智能建议的概率。第三种情况反映了参与者做出不正确的独立决定并决定不改用人工智能的建议的概率。

采纳建议中的个体差异模型

该模型中感兴趣的关键潜变量是 Α _{i,j,k}i,j,k ，它决定了每个项目的参与者在人工智能推荐的预测与他们自己的预测不同的情况下，是否愿意转换到人工智能的预测。一般来说，_ {i,j,k}i,j,k 可以取决于与人、项目和分类器有关的许多特征。在这里，我们将考虑这样的函数，即 α 取决于参与者对项目 j的信心状态（r_{i,j}i,j ），与项目 j有关的人工智能信心得分\ǞǞǞǞ ），以及分类器 k的类型：

\begin{aligned}\begin{aligned}\alpha _{i,j,k} = f( r_{i,j} , eta _{j,k} , k ) end{aligned}.\end{aligned}(6)

指定函数f的一种方法是基于一个线性模型，该模型可以捕捉到主效应以及两个假定因素之间的相互作用。然而，为了避免指定f的确是切函数形式，我们将简化模型，函数f当作一个查找表，根据参与者信心、AI信心和分类器类型的少量组合来指定αα 值。具体来说，我们创建了3×4×3的查询表，根据3个级别的参与者信心（"低"、"中"、"高"）、4个级别的AI信心和3种类型的分类器（K）来指定\ 值。我们使用分层贝叶斯建模方法来估计政策的个体差异/ （详见附录 2）。

实验

为了验证我们的认知模型，我们在两个范式中调查了有无人工智能协助的人类表现：同时和顺序范式。我们将把认知模型应用于同时进行的范式，以推断个别参与者对人工智能的依赖策略。顺序范式的结果是验证我们认知模型的一种手段，因为顺序范式允许我们在整合人工智能协助时对参与者的策略进行经验分析。

在这两个范式中，参与者必须将噪声图像分为16个不同的类别（用户界面的例子见图2）。有两个实验操作。首先，图像的噪声被改变以产生分类难度的巨大差异（图4）。其次，我们改变了人工智能预测的总体准确性，包括三个条件：分类器A、分类器B和分类器C。分类器A被设计为产生预测，平均而言，其准确性低于人类的表现。分类器B和C被设计为产生平均与人类表现一样准确或更准确的预测。每个参与者都与一种类型的分类器配对。

两个范式之间的主要区别是，在同时进行的范式中，参与者在提供或不提供人工智能援助的试验块之间交替进行。在顺序范式中，没有交替的区块。在每次试验中，参与者首先对图像分类问题进行独立的预测，然后在人工智能协助提供后有机会修改他们的预测。

不同程度的相位噪声下的三幅图像的说明。原始图像（左）没有在实验中使用，只是为了说明问题而显示。

方法

参与者

使用Amazon Mechanical Turk招募了60名和75名参与者，分别用于同期和连续实验。为了确保参与者理解任务，他们得到了一套说明，描述了实验和他们要做的事情。在阅读了所有的说明后，参与者被要求进行理解力测验，以确保他们完全理解任务。测验包括让参与者在人工智能帮助关闭的情况下对五种不同的嘈杂图像进行分类。为了参与这项研究，参与者必须在测验中对五张图片中的四张进行正确分类。参与者有两次机会来通过测验。成功的参与者被允许继续进行实验的其余部分。

图片

本实验使用的所有图像都来自ImageNet大规模视觉识别挑战赛（ILSRVR）2012年的验证数据集（Russakovsky等人，2015）。按照（Geirhos等人，2019），选择了一个256张图像的子集，平均分配给16个类（椅子、烤箱、刀、瓶子、键盘、时钟、船、自行车、飞机、卡车、汽车、大象、熊、狗、猫和鸟）。为了操纵分类难度，图像在每个空间频率被相位噪声扭曲，其中相位噪声均匀分布在\omega] （Geirhos等人， 2019）。八个级别的相位噪声，\omega=\{0, 80, 95, 110, 125, 140, 155, ，被应用于图像，每个独特的图像有不同的噪声级别，导致每个噪声级别每个类别有2个独特的图像（见图 4相位噪声操作的例子）。

人工智能预测

我们使用了基于VGG-19架构的卷积神经网络（CNN）（Simonyan和Zisserman，2014），在ImageNet数据集上进行了预训练，作为人工智能协助的基础。我们选择VGG-19的动机是以前的实验（Steyvers等人，2022），该实验表明VGG-19模型的性能可以被操纵，在实验中具有挑战性的图像噪声条件下产生高于人类的性能。

通过根据实验中使用的相位噪声对VGG-19架构进行不同的微调，创造了三种不同级别的分类器性能。所有的模型都是在所有级别的相位噪声下训练的。然而，为了产生这些不同水平的性能，对模型进行了不同时期的微调。我们使用了一个有145名参与者的试点实验来评估人类在不同噪音水平下的表现。分类器A是通过微调不到一个纪元的时间（第一个纪元的10%的批次）产生的，产生的性能水平平均低于人类性能。分类器B是通过对一个纪元的全部时间进行微调而产生的，其性能水平平均接近人类性能。分类器C对10个历时进行了微调，产生的性能水平高于人类的平均性能。

程序

在同时进行的和连续进行的范式中，参与者被要求尽可能地对图像进行分类，并在提供人工智能协助时利用人工智能来优化性能。在实验开始时，每个参与者被分配到一个单一的分类器级别（A、B或C），并且每个人都只得到来自该特定分类器的人工智能帮助；在同时进行的范式中，每个分类器级别有20名参与者，而在顺序范式中，每个分类器级别有25名参与者。参与者没有得到关于分类器准确性的信息。

并行范式

在同时进行的范式中，总共有256个试验。每项试验都有一个从256张图像中随机选择的独特图像。分类试验被分成4个区块，每个区块包括48个开启人工智能协助的连续试验和16个没有人工智能协助的连续试验。有人工智能协助的试验数量较多，是为了更好地评估参与者在不同程度的人工智能信心下对人工智能的依赖策略。由于图像在参与者之间的随机排序，在人工智能协助条件下，一些参与者显示了一个特定的图像，而在没有人工智能协助的控制条件下，其他参与者则显示了一个特定的图像。每张独特的图片在控制条件下被展示给15名参与者，在人工智能辅助条件下被展示给45名参与者。

在每次试验中，参与者都会看到一个如图2所示的界面。参与者通过按反应按钮将图像分为16个类别，这些按钮用视觉图标以及标签（当参与者将鼠标悬停在按钮上时）代表这些类别。对于每个分类，参与者提供了一个离散的信心水平（低、中、高）。最后，界面的最右边一栏被用于人工智能协助。当人工智能协助被关闭时，这一栏没有显示任何东西。然而，当人工智能协助被打开时，16个类别选项的网格就会显示出来，其布局与参与者的回答选项相同。16个类别中的每一个都会根据与人工智能分类器分配给该类别的概率有关的梯度刻度而被突出显示。突出显示的类别的色调越深，分类器对该选择就越有信心。在分类器对单一类别非常有信心的情况下，将只有一个类别以极深的色调突出显示。然而，在分类器对某一分类没有信心的情况下，会有多个类别以低色调水平突出显示。参与者将利用人工智能的帮助来帮助他们做出分类决定，以优化他们自己在任务中的表现。在每次试验结束时，都会提供反馈，以使参与者能够根据他们所配对的特定人工智能算法制定人工智能的依赖策略。在反馈阶段，正确的反应选项以蓝色突出显示。如果参与者不正确，不正确的反应会以红色突出显示。

循序渐进的范式

在顺序范式中，总共有192次试验。每项试验都有一张从256张图片中随机选择的独特图片。在每个试验中，参与者首先被要求自己对图像进行分类，并显示图2所示的界面，但没有人工智能协助（显示人工智能协助的第三栏完全空白）。在选择他们最初的分类决定并通过选择信心水平提交他们的反应后，参与者被提供了人工智能协助。这个阶段的用户界面与图2完全一样，显示人工智能信心的程序也与同时进行的程序相同。在人工智能的帮助下，参与者对所显示的图像进行最后的分类决定，并通过选择他们的信心水平来提交他们的反应。一旦做出最后的分类，参与者将得到3秒钟的反馈。

结果

图5显示了不同噪音水平、人工智能分类器准确度水平、人工智能辅助条件、以及同时和连续接受建议模式的平均准确度。在同步和顺序程序中，随着图像噪声水平的变化，观察到了实质性的性能差异，从零噪声水平的接近上限的性能到最高噪声水平的接近机会水平的性能（即1/16 = 0.0625）。在所有的分类器条件下，人类的表现在人工智能的帮助下得到了改善，特别是在中间的噪音水平，如图6所示。对于分类器B和C，人工智能协助产生的性能水平与人工智能本身相当。对于分类器A，尽管人工智能协助的准确度平均低于人类的表现，但人工智能协助还是提高了人类的表现。请注意，当参与者在选定的试验中依赖人工智能协助时，当参与者处于低信心状态，而分类器处于相对高的信心状态时，这一结果是可能的（关于人类和人工智能信心之间的关系分析，见附录5）。总的来说，这些结果表明，参与者能够依靠人工智能的协助来产生恭维性--人类和人工智能的联合准确度等于或优于人类或人工智能单独的准确性。

并行和顺序范式的结果非常相似。在人工智能的帮助下，分类器A、B和C的平均人类准确率在同步范式中分别为57%、62%和68%，在顺序范式中分别为56%、61%和65%。贝叶斯独立样本t检验显示，没有证据表明任何分类器的性能有差异（即所有贝叶斯系数<1）脚注2。这些结果在同时和顺序实验中都是一致的，而且非常相似，这表明实验性的建议接受范式在人类如何依赖和整合人工智能协助方面没有产生重要的差异。

在有和没有人工智能协助的情况下，人类的准确率以及人工智能的准确率作为噪音水平（横轴）的函数，跨越并发和顺序范式（行）。列中显示了不同类型的人工智能分类器：分类器A的准确性低于人类的平均准确性，分类器B的准确性与人类的平均准确性相当，而分类器C的准确性高于人类的平均准确性。误差条反映了基于二项式模型的平均值的95%置信区间

Model-Based Analysis

实证结果显示，在所有的实验操作中，同时和顺序接受建议的范式产生了类似的准确度。在本节中，我们报告了将认知模型应用于同期范式的数据的结果。

我们使用马尔科夫链蒙特卡洛（MCMC）程序来推断图形模型的模型参数，如图3所示（详见附录2）。一般来说，该模型能够捕捉到同期范式中的所有定性趋势（见附录4对模型拟合度的样本外评估）。我们把分析的重点放在该模型估计的两个关键参数上：\β ，人口层面的建议接受政策，以及α ，个体参与者的建议接受政策。在接下来的章节中，我们说明了推断出的政策，并将结果与经验观察到的顺序接受建议的策略进行比较。此外，我们还分析了这些政策相对于参与者可能采取的所有政策的有效性，从最差到最好的政策。

推断的建议接受政策

图7，最上面一行，显示了推断出的采纳建议的政策beta 作为分类器信心、参与者信心和分类器的函数。这些政策代表了模型的群体水平上的平均参与者的行为。图 8显示了从个体参与者的子集中推断出的接受建议政策的例子\alpha ）。总的来说，接受人工智能建议的概率在不同的分类器中差别很大。当参与者处于低信心决策状态，而分类器提供高信心建议时，建议更有可能被接受。此外，在不同的分类器准确性水平上，建议更有可能被高准确性分类器接受。总的来说，这些结果表明，接受建议的行为取决于多种因素，而不是基于单纯依靠人工智能的信心水平或参与者的信心水平的简单策略。此外，结果显示，当人工智能的协助变得更加准确时，建议接受行为会被调整，从分类器A到分类器C，表明参与者对人工智能的准确性是敏感的。

从并发范式（上行）和顺序范式（下行）中观察到的接受建议的行为推断出的建议政策。该政策决定了接受人工智能建议的概率是人类信心（颜色）、分类器信心（横轴）和分类器类型（列）的函数。上行的彩色区域显示95%的后验可信区间。底行的彩色区域反映了基于二项式模型的平均值的95%置信区间。推断出的接受建议的参数\beta )在此可视化中从对数转换为概率

在同时进行的范式中，7个参与者中的一个子集的推断建议接受政策。该政策决定了接受分类器建议的概率alpha ），作为人类信心（颜色）、分类器信心（横轴）和分类器类型（行）的函数。有色区域显示95%的后验可信区间

全尺寸图片

图7，最下面一行，显示了经验上观察到的顺序范式的依赖策略。这个分析集中在参与者的初始预测与人工智能预测不同的试验子集（尚未显示），然后计算参与者切换到人工智能预测的试验的比例。重要的是，即使在两个范式的依赖策略之间可以观察到一些数量上的差异，但质量上的模式是相同的。因此，顺序范式的结果为认知模型提供了一个关键的验证。认知模型在同期范式中发现的潜在策略与顺序范式中观察到的非常相似。

接受建议政策的有效性

我们现在要解决的问题是，参与者的建议接受政策的有效性如何。如果参与者改变他们接受建议的策略，他们的表现会好多少（或差多少）？图9显示了在不同的采纳建议政策实例中所有可能的结果范围。最差和最好的建议接受策略的准确度是通过分析推断出来的，该分析以参与者的表现为条件优化表现（附录3）。请注意，最差到最好的准确度跨越了所有可能的结果的范围。为了了解参与者的平均政策\beta ）在这个范围内的有效性，我们使用蒙特卡洛抽样程序得出所有策略的准确性分布（详见附录 3），并计算出参与者策略在这个分布中的百分位数排名。这些结果表明，参与者采取的实际政策是非常有效的，在所有可能的策略中得分在前10%或接近10%。图10显示了当有效性分析应用于单个参与者数据时，所有单个参与者的百分位数排名。虽然有一小部分参与者使用了次优的依赖策略，但大多数参与者使用了高度有效的策略。

相对于最佳和最差的建议政策，人口水平上的建议政策的准确性。分布图显示了随机抽样的接受建议政策的准确性。为了量化参与者的表现水平，百分比显示他们的表现相对于所有可能的政策的准确性分布的百分位数排名

以相对于所有可能的建议政策分布的百分位数来评估建议接受策略的有效性的个体差异

讨论

适当地依赖人工智能的建议对于人类和人工智能之间的有效合作至关重要。大多数关于人工智能辅助决策的研究都集中在深入了解人类对人工智能的依赖上，通过基于信任度的经验观察以及对人类和人工智能的观察准确性和最终决定的比较。例如，在使用信任作为依赖的代表的工作中，个人被要求报告他们对人工智能助手的信任（Lee和See，2004）。然而，自我报告的信任并不是一个可靠的信任指标（Schaffer等人，2019）。研究人员还比较了提供人工智能协助时人类-人工智能团队的准确性和没有协助时的准确性（Lai和Tan，2019）。然而，这种准确性的差异与人工智能的性能直接相关。另一种用于研究依赖性的方法是基于分析人类的最终决定和人工智能的预测之间的一致性（Zhang等人，2020）。这种方法在同时进行的范式中使用时是有问题的--虽然一致可能是因为个人对人工智能的信任而发生，但也可能是因为即使没有人工智能的帮助，个人也可能得出与人工智能相同的预测结果。最后，在使用顺序范式的实验中，可以通过个人在其最初的独立决定与人工智能不同的情况下转向人工智能的建议的倾向来评估依赖性（Zhang等人，2020；Yin等人，2019）。虽然这是一个简单明了的程序，可以深入了解依赖策略，但它不能适用于并发范式，因为个人的独立反应本身是不可观察的。

我们没有使用经验措施来评估依赖性，而是开发了一种认知建模方法，将依赖性视为一种潜在的结构。该建模框架提供了一种原则性的方法，通过使用并发范式中接受建议行为的概率模型来揭示个体的潜在依赖策略。它可以用来推断人类对某一项目独立做出正确决定的可能性，即使他们的独立决定没有被直接观察到。该模型能够进行这种推断，因为它假定处于相同技能水平的人可能会做出相同的预测。该模型使我们能够调查与人工智能达成一致和转而接受人工智能建议之间的差异（两个经常用于评估信任的指标），而无需明确要求人类对每个问题作出独立的回应。为了应用该模型，需要进行经验观察，评估人们在没有人工智能协助下的独立决定。

我们表明，认知模型在并发范式的基础上推断出的人工智能依赖策略与顺序范式中观察到的人工智能依赖策略在性质上是相似的。因此，这表明潜在的建模方法可以用来研究人工智能辅助决策。该模型估计的依赖策略显示，参与者对人工智能的依赖是有区别的，并且在不同的问题上有不同的依赖性。如果参与者对自己的决策不太自信，或者当人工智能相对自信时，他们更有可能依赖人工智能。此外，参与者对总体上更准确的人工智能的依赖程度更高。这一发现与（Liang等人，2022）相一致，后者表明当任务困难时，以及当他们得到关于他们的表现和人工智能的表现的反馈时，人们更依赖人工智能的帮助。

结果还显示，与最佳依赖策略相比，参与者能够建立非常有效的依赖策略。我们认为，参与者能够做到这一点是因为以下原因。首先，这是一个简单的图像分类任务，而大多数人都是从图像中识别日常物品的专家。这使人们对自己的专业知识和对任何呈现的图像的信心有一个很好的了解。第二，在我们的实验中，人们在每次试验后都会收到反馈，这让他们有机会了解人工智能助手的准确性和信心校准。这种反馈使人们在与三个分类器中的任何一个配对时，能够为人工智能助手建立合理的心理模型。

最后，我们的结果显示，并发式和顺序式人工智能辅助范式导致了相当的准确性。一些研究者认为，顺序范式优于并发范式，因为最初的无援助预测鼓励独立思考，这可能导致检索额外的问题相关信息（Green和Chen，2019）。然而，与我们的研究相一致的是，其他研究发现并发范式和顺序范式之间的整体表现没有差异（Buçinca等人，2021）。另一个可能相关的因素是人工智能协助的时间。人工智能建议可以在一些延迟后提出，这为决策者提供了额外的时间来思考问题并提高他们自己的决策准确性（Park等人，2019）。另一种可能性是在人工智能预测显示后，改变人们处理人工智能预测的时间，使人们更有可能发现人工智能的错误（Rastogi等人，2022）。总的来说，需要更多的研究来了解征求独立的人类预测和改变人工智能建议的时间的效果。

我们的经验和理论工作伴随着一些限制。首先，我们提供了逐个试验的反馈，以帮助参与者建立一个合适的人工智能性能的心理模型。然而，在现实世界的场景中，反馈并不总是可能的（Lu and Yin,2021）。未来的研究应该研究在参与者完全没有收到反馈或在延迟后收到反馈时的认知过程的建模扩展。第二，虽然认知模型捕捉到了基于潜在依赖政策的建议采纳的一般过程，但它并没有对随着时间推移建立依赖政策的过程进行建模。因此，一个重要的模型扩展--我们将其留给未来的研究--是将依赖政策的逐次试验调整作为参与者对人工智能算法准确性的先验信念、人工智能信心和准确性的外部信号以及内部产生的信心信号的函数。

标签：