欢迎光临散文网 会员登陆 & 注册

准确计算平均数,这个方法你一定没想到!

2023-02-17 12:42 作者:咚宝鱼  | 我要投稿


考虑一个往返行程案例:上海到青岛距离750km,从青岛开车到上海,顺畅不堵车,速度100km/h;然后从上海返回青岛时,因为堵车,速度为20km/h。那么往返行程的平均速度是多少? 

图1 往返行程示例


是将往返速度分别相加后除以2吗?也就是100km/h加上20km/h后除以2,平均速度是60km/h吗

我们换一种计算方式来看看:

 


可以发现,后者计算出来的33km/h平均速度比之前的60km/h要低不少。

根本原因在于平均速度是一个比值,分子和分母都是独立变量(分子是行程距离,而分母是时间)。后面的计算方式将这两个独立变量分开,分别相加(分子是总行程,分母是总时间),然后再相除形成一个比值,这样计算出来的平均值才是正确的。

其实,没有一种数学运算叫做“平均”,我们通常所说的平均值是“算术平均值”,即上述第一种运算方式(60km/h)。之所以称为“平均值”,是因为我们希望它符合 “平均”的定义: “一般水平”或“中间值”。更专业地说,“平均值”也就是“中心趋势”(Central Tendency)或“位置度量”(Measures of Location)。

在数学上,计算平均值的经典方法有三个,分别是:算数平均值(AM-Arithmetic Mean),几何平均值(GM-Geometric Mean)和调和平均值(HM-Harmonic Mean。他们也被称为是毕达哥拉斯平均值(Pythagorean means)(毕达哥拉斯和后世希腊数学家研究了三者的比例关系,而以此命名)。

为了了解它们的基本功能,让我们从熟悉的算术平均值开始。

算术平均值

通过将数据集中的所有数值相加,然后除以数据集中数值的个数就可以得到算术平均值。

之所以要除以数值的个数,也是为了将数值相加的总和降低到和原始数据集数值维度相同的水平。

比如:1,4,10 三个数字

算术平均值=


 

当数据之间存在加法关系时,算术平均值可以很好地生成数据集的“平均”数这种关系通常被称为“线性”,因为当以升序或降序绘图时,数字往往落在一条直线上或附近。下图就是一个简单的线性案例,数据集中每个数字都是通过在前一个数字上加3而产生:1,4,7,10,13,16,19…

这时候用算术平均值方法计算出的值

恰好是一个合理的中间值。

 

但并非所有数据集都能用这种关系来描述。有些数据集是乘法或指数关系,例如,如果我们将每个连续数字乘以3的话:1,3,9,27,81,243,729…

这时候用算术平均值方法计算出的值156.1


就不能很好地代表平均值,实际上,它是中位数(中间数)也就是27的5倍多。

 

那应该如何计算平均值呢?

接下来就和大家介绍一种新的方法:

几何平均值

由于数值是倍数/乘数关系,为了求平均值,需要将所有的数字相乘而不是相加。然后,为了将乘积重新缩放到原始数据集维度范围,我们必须再取根,而不是简单地相除。

所以,上述数据集1,3,9,27,81,243,729…

的几何平均数=

 

在这种情况下,我们的几何平均值与数据集的中间值完全重合!

注意:几何平均值并不总是等于中值,只有在所有数字之间存在完全一致的乘法关系的情况下(例如,将之前的每个数字乘以3)。真实世界的数据集很少包含这样的精确关系,但对于那些近似这种乘法关系的数据集,几何平均值将给出比算术平均值更接近的“中间数”。

几何平均值的实际应用

事实证明,几何平均值有许多实际用途,因为在现实世界中存在大量乘法关系。比如:

金融中的利息计算(包含复利)

假设我们有100000元,在5年内每年产生不同的利率:

年利率:1%、9%、6%、2%、15%

第1年:100000+(100000*.01)=100000*1.01=101000元

第2年:101000*1.09=110090元

第3年:110090*1.06=116695.40元

第4年:116695.40*1.02=119029.31元

第5年:119029.31*1.15=136883.70元

如果用算术平均值计算:


 用平均年利率来计算总收益(包含复利)=

算术平均值将我们的实际收入高估了近1000元。这里我们犯了一个常见的错误:我们对乘法过程应用了加法运算,结果就不会准确

现在我们再试试几何平均值:

年利率平均值=


将利率的几何平均值代入复利公式:

赚取的总利息=100000元*(1.0648⁵ - 1) = 36883.70

利息+本金=36883.70元+100000元=136883.70元

最终总额=136883.70元,与第一步计算的结果完全相同!

注解:我们必须在几何平均值计算中使用(1+年利率)作为输入,因为实际情况下,(1+年利率)才是乘法算子:本金乘以(1+年利率)来计算每个时期的金额。这样做还有一个额外好处,即使存在负利率和0利率,也可以避免无法计算的情况。

更进一步说,在计算类似利率这种百分比数值的几何平均数时,一般需要将百分比转换为十进制乘数。如果数据集以百分比的形式增加或减少,请避免在几何平均值中直接使用百分比值,因为它会扭曲最终结果。

如果百分比是增加的,一般加上1。如果百分比减少,从1中减去百分比(也可以认为是1+负百分比)

比如:一个数据值先增加10%,然后下降3%。

10%转换为:1+10%=1+0.1=1.1

5%转换为:1-3%=1+(-3%)=1-0.03=0.97

几何平均值=


最后,将1.03减去1,将数值转换回百分比,得出总值增加3%。

另外,几何平均值的一大特点是:可以在完全不同的尺度上对数字进行平均

比如:我们想比较使用两个不同评价标准的两家咖啡店的在线评分。其中一种使用5分制来评价,而另一种则使用100分制。

咖啡店A

评级1:4.5

评级2:68

咖啡店B

评级1:3

评级2:75

如果我们天真地计算每个咖啡店的原始评分的算术平均值:

咖啡店A=(4.5+68)÷2=36.25

咖啡店B=(3+75)÷2=39

我们的结论是咖啡店B是赢家。

其实,在用算术平均值求平均值之前,必须要将数值归一化到相同的尺度上,才能得到准确的结果。因此,我们将评级1乘以20,将其从5分制提升到100分制的标准:

咖啡店A

4.5 * 20 = 90

(90 + 68) ÷ 2 = 79

咖啡店B

3 * 20 = 60

(60 + 75) ÷ 2 = 67.5

因此,我们发现咖啡店A才是真正赢家,与上述算术平均值结论完全相反。

然而,几何平均值允许我们得出相同的结论,而不必担心尺度或度量单位

咖啡店A=(4.5*68)的平方根=17.5

咖啡店B=(3*75)的平方根=15

通过上述例子可以发现:算术平均值由更大范围的数字主导,这使我们认为咖啡店B是评级较高的商店。这是因为算术平均值是数字之间的加法关系,而不考虑比例和尺度。因此,在应用算术平均值之前,需要将数字放在相同的尺度上。

另一方面,由于几何平均值的乘法性质,它可以轻松地处理不同的比例关系。这是一个非常有用的特性,但同时我们丢失了尺度标准。在这种情况下,几何平均值实际上是无单位的。

也就是说,上面的几何平均值不是100分制中的17.5,也不是5分制中的15。它们只是无单位的数字,彼此成相对比例。(从技术上讲,它们的尺度是原始尺度5和100的几何平均值,即22.361)。

与生活中的大多数事情一样,应用几何平均值几乎没有铁板钉钉的规则(除了复利和类似的事情)。虽然有一些经验法则,但最终还是需要科学判断。

现在让我们来介绍一下我们最后一种毕达哥拉斯平均值:

调和平均值

 


算术平均值需要加法,几何平均值使用乘法,而调和平均值使用倒数。调和平均值可以用文字描述为:数据集倒数的算术平均值的倒数。听起来确实有些拗口,但实际上只是几个简单的步骤:

1. 取数据集中所有数字的倒数

2. 找出这些倒数的算术平均值

3. 取这个数的倒数

 


为什么要取倒数,这样做有什么好处呢?

调和平均值的实际应用

要回答这个问题,我们必须先了解:倒数有什么好处?

由于倒数和所有除法一样,只是变相的乘法(而乘法本质上只是变相的加法),倒数可以帮助我们更容易地除以分数。例如,5÷3/7是多少?只需要将5乘以7/3(3/7的倒数)就可以解决这个问题:

5 ÷ 3/7 = 5/1 * 7/3 = 35/3 = 11 2/3 = 11.66667

但一种等效的方法是将数字5和3/7换算成一个公分母,然后按正常方式进行除法:

5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 11 2/3 = 11.66667

同样,类似于使用几何平均值作为乘法或非线性关系下的计算平均值方法(见上文),调和平均值帮助我们找到分数之间的乘法/除数关系,而不必担心公共分母

因此,调和平均值自然适应几何平均值上的另一层乘法/除法。因此,在处理不同长度或时期的利率或比率(即分数)数据集时,它很有用。

就像文章开头所提的行程往返问题,就可以用调和平均值来计算。

比如:从青岛到上海速度的倒数是1/100,上海到青岛速度的倒数是1/20,倒数的算术平均值是

则调和平均值200/6=33km/h,和第二种方法计算结果一模一样!

另外,加权调和平均值是计算平均倍数的首选方法,如市盈率(P/E)。如果使用加权算术平均值对这些比率进行平均,则高数据点的权重大于低数据点。另一方面,加权调和平均值正确地对每个数据点进行加权。简单的加权算术平均值向上偏移,无法在数字上证明其合理性,因为它基于均衡收益;正如车辆速度不能在往返行程中平均一样(见上文)。

例如,考虑两家公司,一家公司的市值为1500亿美元,收益为50亿美元(市盈率为30),另一家公司市值为10亿美元,利润为100万美元(市盈度为1000)。考虑一个由这两种股票组成的指数,30%投资于第一种股票,70%投资于第二种股票。我们想计算这个指数的市盈率。

使用加权算术平均值 (错误示例):

P/E=0.3*30+0.7*1000=709

使用加权调和平均值(正确示例):

P/E=


因此,只有使用加权调和平均值才能找到该指数93.46的正确市盈率P/E,而加权算术平均值将显著高估它

三种均值符合严格的大小关系

由于它们各自的方程式:调和平均值总是小于几何平均值,几何平均值总是大于算术平均值。

当数据集中的所有数字都是相同的精确数字时,在这种情况下,所有3个均值都是相同的。因此,以下不等式成立:

调和平均值≤几何平均值≤算术平均值

认识到这种关系有助于理解何时应用每种方法,以及对结果的影响。

为了更形象展示这种关系,让我们看看上文提及的数据集中三种不同平均值的位置关系:

 

 

准确计算平均数,这个方法你一定没想到!的评论 (共 条)

分享到微博请遵守国家法律