虚拟耳机实验以及这个实验带给我们的启发。

早在半年前我就写过一篇关于虚拟耳机的文章,但那篇文章里只是一个笼统的介绍。
这篇文章通过对虚拟耳机实验的注释以及其结果做一个更详细的介绍。

科学的耳机听音测试是很难进行的,因为在控制听音测试时会受到讨厌的变量和人们固有的偏见的挑战。它们包括视觉和触觉的偏差、漏泄效应、听者之间的一致性以及切换不同耳机之间的时间间隔过大而导致的听觉记忆丧失。这对入耳式(即)耳机尤其具有挑战性,因为在500赫兹以下的低音性能需要良好的密封环境。
对于AB对比双盲听测试而言,由于大多数缺乏长期专业听音经验的人无法对稍长时间间隔的声音有准确的记忆,因此快速在两个产品之间切换是必备条件。对于音箱而言,可以轻易的做到两个音箱之间的快速切换,两个音箱位置的不同也可以通过音箱穿梭走廊或者快速转台来解决。而对于耳机而言,不论是入耳式耳机还是头戴式耳机,传统的AB双盲听方法中,都需要摘下原有耳机再佩戴上新的耳机,这一过程会引入过多的变量,例如两次佩戴耳机时佩戴的准确性,以及两次佩戴耳机过程中的时间间隔,导致无法进行准确的AB对比测试。
有几位作者针对这个问题提出了不同的解决方案,包括通过对不同的耳机进行双耳录音把来模拟不同耳机的声音。一个具有一致的配合性和密封性的中立复制耳机是必需的,这样它就不会增加听音时引入的新的误差。通过这种方式,听众可以以受控和双盲的方式在不同耳机之间进行即时比较。Hiroven等人采用这种方法来评估六种不同的耳机,使用窄带和宽带语音信号。将结果与可以看到的实际耳机(非盲听结果)进行比较,以确定这种方法的准确性。虽然不同的测试方法大体上一致,但存在显著的差异,这些差异归因于视觉偏差、与耳机泄漏有关的误差以及录音和复制阶段的匹配变化。由于对实际耳机的评估并不能控制耳机的视觉触觉偏差和渗漏效应,因此无法精确确定这种双耳录音方法模拟不同耳机的准确性。
包括通过对不同的耳机进行双耳录音把来模拟不同耳机的声音。可以算是“云试听”的理论基础。但前提是除了测量时需要有符合国际标准的测试设备和环境,更重要的是需要“云试听”的收听者有一个同一标准的耳机,这样才不会引入新的误差。如果“云试听”的收听者各自使用不同的耳机,那么可能会造成完全相反的判断。具体原因详见:
Brielle和Voinier选择了一种不同的评估方法,通过一个高质量的复制耳机来评估不同的头戴式耳机,该耳机被均衡器均衡以匹配被测耳机的频率响应。Rämö和Välimäki描述了一种用于实现虚拟耳机的数字信号处理框架,包括模拟噪音环境中的耳机隔离能力。这种虚拟化方法无需制作和编辑每个耳机和对应的音乐素材录音,这一优势节省了大量的时间和精力。与录音方法相比,虚拟耳机方法要求每个耳机仅测量一次,以量化其频率响应和相位响应,然后将实时数字滤波器应用到复制耳机以模拟不同耳机的响应。其好处在于,任何数量的虚拟耳机都可以立即与任意测试信号进行比较,而无需为每个耳机进行额外的录制。
Sean Olive等人使用类似的虚拟耳机方法评估了六种不同的耳罩式耳机/头戴式耳机(2015年)。实际耳机与虚拟耳机的听音者主观评分的相关性总体良好(r=0.85)。然而,某些听音者和某些耳机型号的结果之间存在明显的差异。他们讲这种误差归因于听音者佩戴耳机时泄露因素的差异。与此同时,他们还怀疑一些差异与实际耳机听音测试中的触觉偏差相关,因为在测试中,听音者可以通过耳机的重量和耳罩的触感识别出正在试听的耳机。
即便是对于盲听测试而言,头戴式耳机(尤其是封闭式头戴耳机)的听音结果一方面会受到不同人佩戴的泄露差异影响,更重要的是,实际耳机的听音测试中,听音者可以通过耳机的重量和耳罩的触感识别出正在试听的耳机型号,进而造成先入为主的判断。
以上这些研究强调了消除视觉和触觉偏差的重要性,以便对耳机进行可靠和有意义的主观评价。这只能通过录音听觉化或者虚拟耳机来完成,如上文所述。虽然基于脉冲响应的虚拟耳机方法因其优越的速度和灵活性而更可取,但就像双耳录音方法一样,其缺点在于它不会捕获耳机中的任何非线性失真。这些失真是否可以在典型的回放水平上被听到,并对整体音质有显著影响,这是一个有争议的问题。最近一项针对耳机的调查发现,除非失真程度很高,否则对耳机的整体偏好等级影响很小。然而,迄今为止,还没有研究非线性和相位畸变对入耳式耳机感知声音质量的影响,以及它们是否会限制其虚拟化的有效性。以上这些问题是此次研究的动机。
在目前的研究中,我们公布了控制良好的双盲听力测试结果,其中10名训练有素的听者(Trained listener)评估了12个型号的入耳式耳机的音质。为了验证虚拟耳机方法的准确性,听众分别对通过高质量、低失真的复制耳机复制的虚拟耳机和实际耳机的录音进行了评分,复制耳机被补偿为具有在标准声学耦合器上测量的平坦幅度响应。通过连接在回放耳机上的微电子机械传声器(MEM)监测耦合器和耳道内的信号,消除了录音和回放中的泄漏效应。
真实耳机的录音中包括幅度、相位和非线性失真,而虚拟耳机仅捕获幅度和最小相位响应。因此,通过比较实际耳机和虚拟耳机的音质等级评分,可以评估非线性失真和相位畸变对感知音质的可听性和影响。
本文的组织结构如下:第二部分介绍了虚拟耳机的方法,包括耳机的选择、录制、播放和均衡。第三部分描述了听力测试方法,并在第四部分讨论了测试结果。第五节总结并在第六节给出结论。
森海塞尔 Momentum 入耳式耳机被选择作为复制耳机,是因为这款耳机具有平滑的频率响应、良好的频率延展和低失真。
平滑的频率响应有利于模拟不同耳机的频率响应。
篇幅有限,中间省略。


Figs. 5 and 6 graphically illustrate the good agreement in sound quality ratings between the virtual and actual headphone. In cases where there are small differences in mean ratings, they are within the margin of the 95% confidence interval. Based on the Pearson product-moment correlation coefficient the agreement between actual versus virtualized headphone ratings for Tests One and Two were: r = 0.99 and 0.95, respectively. When calculated across both tests, the correlation between actual and virtualized headphone ratings was r = 0.98.
结论
通过采用受控制的双盲听定音实验,10名训练有素的听音者通过高质量的复制入耳式耳机播放的双耳录音对12款入耳式耳机(12款真实耳机录音与12款虚拟耳机录音),评价其整体音质。根据统计证据,结论如下:
不同型号的耳机对音质评分产生主要影响。
实际耳机和虚拟耳机的音质评分等级之间没有显著差异。Pearson相关系数表明真实耳机和虚拟耳机之间的一致性为r=0.98。
在所有听音者中,虚拟耳机与真实耳机的音质评分等级之间相对一致并具有良好的一致性。
真实耳机的客观测量结果(幅度响应和相位响应)与虚拟耳机的客观测量结果直到10~12kHz均具有良好的一致性。The errors were generally small and based on the listening test results did not have a significant influence on perceived sound quality.(这句话我实在不知道咋翻译)由于失真会出现在实际耳机中,而不会出现在虚拟耳机中,耳机中存在或不存在非线性失真(仍需通过测量确认)没有显著的影响。事实上,实际耳机与虚拟耳机的主观评分相似,这表明非线性失真不是影响听音者音质主观评分的因素。
这一观察结果与之前的扬声器和耳机研究结果一致,与失真和相位测量结果相比,幅度响应(频响曲线)被认为是感知声音质量最可靠的预测指标。未来的研究应该集中在发展可以带来人耳听觉主观感知的失真测量,以确定耳机是否有声音失真,并将其排除在虚拟耳机听音测试之外。有了第5节中概述的约束和限制,本研究提供了证明虚拟耳机听音测试方法可以产生与真实耳机类似的准确可靠的音质评分的证据。
作者要感谢哈曼国际对这项研究的支持。我们也感谢所有参加测试的十位听众。
以下是我对虚拟耳机方法的看法:
就像原文所说,虚拟耳机可以用来作为真实耳机对于音质评分的参考。
虽然虚拟耳机的主观评分和真实耳机的主观评分对于所有型号的测试耳机并不是完全相同的,但是对于大部分耳机而言,虚拟耳机与真实耳机的主观评分是相近的或者几乎相同的(并且考虑到人的主观感受本身就是浮动的)。那么,当我们日常使用时,在没有对比的情况下,可以认为通过一个耳机加载对应的数字滤波器后可以等效或极为接近另外一个真实耳机的主观听感。而这一数字滤波器仅包含频率响应和最小相位响应,不包含相位失真/相位畸变。实际上,就我个人的经验而言,对于耳机和部分情况下的立体声(2声道)音箱系统而言,左右相位一致或同步变化很多情况下不会引起可闻的听觉变化。
不同耳机的非线性失真的差异不足以影响耳机的主观听感,除非非线性失真特别高。关于这部分的内容,有兴趣的小伙伴可以去扩展阅读以下:
Steve Temme, Sean Olive, Steve Tatarunis, Todd Welti, and Elisabeth McMullin,” The Correlation between Distortion Audibility and Listener Preference in Headphones,” presented at the 137th Convention of the Audio Eng. Soc. (October 2014).
关于头戴式耳机,也有类似的方法和多篇论文。
最后,引用某位热心网友的留言,我感觉很精髓。
人的心理啊~一旦在某种东西上投入过多,并自己因此获取存在感,存活消遣的意义,这个人会更加依赖这个东西带来的观念,它形成固有的思维,这个人受到观念植入,不自觉的维护现有的观念以免一直以来的思想崩塌,自己所作所为失去意义。对他迷信的一些东西加以客观剖析以至于稍有动摇他的观念的根本的时候,便沉不住气,仿佛在否定他的人生似的。那么他就条件反射急得跳脚了呗……