欢迎光临散文网 会员登陆 & 注册

【科普】什么是ABX测试?

2020-01-09 21:39 作者:鬼斧神工119  | 我要投稿

ABX测试是一种比较两种感官刺激的方法,以确定它们之间是否有可检测到的差异。先分别播放两段样品A和B,紧随其后的是一个未知的样本X,X是从A或者B之间随机选的,参与测试者需要对X是A还是B给出明确判断,如果X不能可靠地通过低假设值(p-value)判断,则不能证明A和B之间存在可以察觉的区别。

ABX测试可以很容易地以双盲听试验的形式进行,消除了研究人员或测试举办者的任何潜在影响。由于样本A和样本B是在样本X之前提供的,因此不需要根据长期记忆或过去经验的假设来区分它们之间的差异。因此,ABX测试回答了在理想情况下是否存在感知差异。

ABX测试通常用于数字音频数据压缩方法的评估;样本A通常是未压缩的样本,样本B是A的压缩版本。说明压缩算法存在缺陷的音频压缩伪影可以通过后续测试识别出来。ABX测试还可以用来比较在给定比特率下两种不同音频格式的保真度损失程度。

ABX测试可用于音频输入、处理、输出组件以及布线: 几乎任何音频产品或原型设计。


如果只进行一次ABX试验,随机猜测有50%的机会选择正确答案,与抛硬币一样。为了使陈述具有一定程度的可信度,必须进行多次试验。通过增加试验次数,在给定的置信水平下,从统计学上确定一个人区分a和B的能力的可能性会增加。95%的置信水平通常被认为具有统计学意义。QSC公司建议,每一轮测试中至少进行10次听力测试。

95%置信水平所需的结果

95%置信水平所需的结果,即如果进行10次测试,那么应该至少答对9次,以此类推。

通常认为进行16次测试的结果更有说服力。不过,也有人认为可以进行更多次,通过分组进行在对测试结果进行分析,并允许参与测试的人在期间进行充分的休息。

附一个常见的音乐播放软件Foobar官方的ABX测试插件,大家可以试一下320k MP3和WAV之间的差别,我相信会让很多人怀疑人生的~

http://www.foobar2000.org/components/view/foo_abx


ABX是一种强制选择测试。一个实验对象的选择可以是有价值的,即实验对象确实诚实地试图确定X看起来是更接近A还是B。如果多人测试中一个人没有发现区别,这可能会冲淡其他专心参加测试的受试者的结果,使结果符合辛普森悖论,从而导致错误的总结结果。简单地查看测试结果的总数(n个答案中的m个是正确的)并不一定能揭示这个问题的发生。(即需要对单独个体的结果也逐一分析)

严格意义上来说,ABX测试属于双盲听测试的一种。但在现实中,ABX测试用于判断能否听出区别,双盲听测试(例如MUSHRA)用于可以听出不同区别时,主观评价哪一个更好,以及各个产品之间的实际差异有多大,并排除声音以外的其他偏见因素干扰。

如果差异很小,参与测试的人可能会感到沮丧,并简单地通过随机投票来完成测试。所以当差异很小时,如果不采取适当的措施,像ABX这样的强制选择测试可能会倾向于负面结果。

不过,我个人认为,对于一些人声称的“一耳朵区别”和“天差地别”来说,他们应该不会存在这种沮丧心理。

人的感官并没有想象中那么可靠,也没有想象中那么敏锐。我们可以分辨出红色和绿色,我们可以分辨出酸甜苦辣。但对于一部分音频发烧友和品酒师所宣称的能力未免有点过于极端,如果他们真的天赋异禀,那么应该接受测验并证明给大家。
——Quora论坛的一位网友
PS:酒我不懂,但我确实自己试过盲测卡布奇诺和拿铁,还是能够分辨出来的~

最后感慨一下,星战9天行者崛起确实算是扑街了,不过最近在重温星战前六部,确实太经典了,很好看。再加上第七部原力觉醒也还可以。而写完ABX测试这篇文章,突然让我想起了尤达大师的一句名言:

Do or do not, there is no try~

如果你真的点开了上面Foobar ABX对比插件的链接并进行了测试,愿原力与你同在~

(顺便,明天更新索尼A105播放器测评)



【科普】什么是ABX测试?的评论 (共 条)

分享到微博请遵守国家法律