研究与分析中的基本定量方法
如果你能测量你所说,并且能用数字来表述它,那就说明你知道你在说什么;如果你不能测量你所说,并且不能用数字来表述它,那么你所知道的就存在不足,不够充分 :它可以是认知的开端,但你绝不可能达到科学高度。
——开尔文勋爵(原名威廉·汤姆森 (William Thomson,1824-1907)。爱尔兰数学物理学家、工程师,热力学温标(绝对温标)的发明人,被称为热力学之父。)
在职业生涯中的某个时间,几乎每一位研究或分析人员都会与定量数据打交道。有时,研究人员需要自已进行定量分析,但更多情况下,研究人员必须使用其他研究人员的定量分析成果。本章探讨与情报研究和分析有关的一些基本数据和定量分析方法,有些情况下只讲到一种方法,它的具体应用会留给读者思考,另一些情况下,尤其在讨论某个具体方法时,会举例证明它在解决情报问题中的应用。
对于不熟悉数学符号意义的研究人员来说,本章所用到的一些公式也许看起来晦涩可怕,但实际操作通常很简单。对于任何懂得一些基本代数知识的人来说,掌握这些公式都不成问题。本章的目的在于使研究人员了解统计学的基础知识,而不是训练读者去开发或应用某一统计方法来解决某个具体问题:这也是核心目标。
一、统计分析
统计学是研究大量数字数据的搜集、分析和推断的科学。统计学有种基本类型:描述统计、抽样理论和推断统计。描述统计表述一组数据大小和分布,例如,在对一次可疑的军事动员的研究中,描述统计可以告诉研究人员,在过去几个月内,经铁路从A地到B地运送重型武器的平板车 (atcar)的平均数。(研究人员还可以估算空车返回的平板车的平均数)
抽样理论使人们只根据总体的一部分,就可以推断出很多(或所有)情况、事情、事件或状况(即“总体”)。例如,关注A运往B物资动向的研究人员了解到每天有四辆火车在特定路线对开 (总体),但他只需每周两次计算火车的平板车 (他的样本)数量。抽样理论使他可以自己制定观测方案并确定样本大小。
推断统计是根据一组或几组数据做出推断,有多种功用。通过推断统计,研究人员可以根据总体的样本,量化描述总体参数的置信度。例如,研究人员也许发现西向火车的平板车每周按比例增加,相应的,东向火车的空平板车也随之增加,通过推断统计,无论他每天或每周观测一次,都可以判断是否继续同样的趋势。
推断统计还可用于分析两个或多个变量之间的关系。如果不仅记录下载货的西向平板车数量,还将它们按时间顺序制成图表,时间和平板车数量就都变成了重要的变量。运用线性回归分析,可以画出一条线来显示平板车数量随时间变动的增加趋势。在本例中,统计推断还可用于研究其他变量间的关系,例如火车总长与每辆火车的车厢数量的关系。


按时间顺序记录的数据绘图2

二、数学分析
统计分析在情报研究与分析中尤其有用,因为分析人员经常需要通过部分数据得出结论,但有时使用简单的数学公式更有效。例如,如果指官确定他正在和两个独立营的分队交战,他只需将交战部队的数目乘以支部队的兵力,就可以估计出敌人部队的实力,如果他知道与他交战的个营隶属于某个团,只要将该团每支部队的实力乘以部队总数,就可以计出即将遭遇的敌人的整体实力。在该例中,简单的算术运算就足以让人们做出准确评估。

三、描述统计
描述统计是对大量数字信息进行概括总结,并绘制出描述这些数字信息的图表。描述统计可以通过绘图、文字和数学计算来表述。本节将介绍描述统计的方法和手段,主要包括频数分布、集中趋势量数和分趋势量数。
频数分布:
对特点或特征的测量结果称为值。一个具有不同值的特点或特征称为变量。例如,研究人员想要研究一组人的身高、年龄、财富、教育程度、服役年限等,而群组中每个人的这些特点的值都不一样,因此,就称它们为变量。
对每一类身高、年龄或其他变量的人的数量可以列出出现次数。例如,292名士兵的身高可通过测量得知,它们出现的次数。

这些士兵的身高按照每两英寸间距记录,这样,单从该次数分布表中,无法将身高68英寸的士兵和身高69英寸的士兵区别开来。研究人员选择正确的组距(class interval) 十分重要,组距的大小取决于该数据的实际用途。在本例中,选择 1/8 英寸组距并不好,因为人的身高一天内的变化通常都会超过1/8英寸;另一方面,选择20英寸组距无法给研究人员示任何特点。多数情况下往往采用等距分组(例如,所有士兵采用2英寸组距而不是一些2英寸一些4英寸)。
该次数分布表显示,多数士兵身高在 68-70 英寸之间、特别高或特别矮的人并不多,但这群人的身高特点,该次数分布表无法给读者一个清晰的印象。通过绘制数据图,将身高数据绘制在横轴上,各数据对应的人数绘制在纵轴上,就能呈现数据的直观印象。
由长方形组成的图称为柱形图,如果将每个长方形项线的中点连起来,图像就更加直观。该柱形图显示了每组中的个体人数.每组的相对大小以及各组的分布情况,该柱形图呈粗略对称“曲线”,表示个高和个矮的士兵人数相当。

集中趋势量数
武器制造时通常只有一个尺寸,但武器的设计必须既能让最高个子的士兵用,又能让最矮个子的士兵用。因此,武器设计通常要适应“典型”或“普通”士兵的需求。计算“典型”士兵身高是计算数据集中趋势的一种方法,共有三种集中趋势量数:平均数、中位数和众数。平均数表示平均水平,可通过将变量的所有个体值加起来,然后除以这些值的个数。在上面所举的士兵身高的实例中,有很多身高相同的士兵,相比于将每个个体的身高相加,用下面的方式计算平均数效率更高。

每组的中间身高,例如 60-62 英寸组的中间身高是61英寸,这一数字乘以该组士兵人数得出第(3) 栏数据,即该组距的“士兵一英寸数”总和,将第 (2)栏的数据加总、第 (3) 栏的数据加总,然后用第 (3)栏的总和除以第 (2)栏的总和,就可以得出平均数。
士兵的英寸数总和/士兵总人数=20421/295=69.2(英寸)
中位数指一组变量的中间值。例如,如果将所有士兵按从低到高的顺序排列,排在中间位置的士兵的身高就是中位数。通过将数据重新排列,就可以得出中位数 ,在第(3) 栏中,将每组士兵人数与之前组士兵人数相加,如12+28+37.....·由于共有295名,第148 位士兵的高度就是中位高度。根据第 (3) 栏数据,第 148 位士兵身高为68-70英寸。众数是出现次数最多的数据组,在本例中,众数是68一70数据组(本组有50名士兵)。

如果准备派送一些武器和装备,对士兵的高度进行统计对比分析,能够帮助规划者决定需要提供的军装尺寸和武器型号。例如,225名士兵的高度柱形图显示,他们通常比其他士兵身高低得多,数据分布的平均数是62.4英寸,中位数和众数在62一64英寸之间。因此,为适合一个典型的士兵,为其发放的军装应该设计为比一个典型的其他士兵的军装短7英寸。

【在正态分布数据情况下,平均数、中位数和众数大致相等】
分散趋势量数
美军士兵身高数据的分布差异达20英寸 (60-80英寸),如果每一个2英寸组士兵需要一套不同尺寸的军装,那么所有士兵就需要10套不同尺寸的军装。而在盟军士兵组中,最高和最矮士兵身高差异只有 18英寸,如果使用与上面相同的标准,整组人群只需9套军装。分布在平均值之外的数据称为“分散数据”,高而窄的柱形图的数据分散程度不及低而宽的柱形图广。一种较常用的度量分散趋势的方法称为标准差(standard deviation),它可以表示该组中多数士兵距离平均身高的远近程度。
【标准差计算:


就像计算平均数一样,每个组距的中间值代表该组距。
士兵的身高标准差为 3.93 英寸。该量数显示,多数兵身高高于58.5 英寸但低于 66.3 英寸。如果身高的分布形成一个正态曲线,那么,68%的身高将包含在平均数左右各1个标准差范内,95%的身高包含在距平均数 上下1.96 个标准差内。本例中,身高的分形成了与正态钟形图非常接近的曲线,据此可以断定,约 2/3 的身高数量分布在距平均数 1个标准差范围内。
A部士兵身高的平均标准差为 4.07 英寸。因此,多数A部身高于65.1英寸但低于 73.3 英寸。要对比两个分布的分散程度,可用标准差除以平均数,这样就可以比较两个分散趋势量数。运用除法的必要性在于,对于身高较低的B部士兵来讲,距平均数 1 英寸的差异的百分比要大于A士兵身高距其平均数 (高于或低于) 1 英寸的差异的百分比。
相对差异量数称为变异系数 (coeficient of variation),对于B部士兵,它等于:

对于A部士兵,它等于:

该量数显示,B数据的分布比A数据更分散。需要注意的是,尽管A士兵身高数据的全距(range) 和标准差更大,但B身高的变异系数更大。全距和变异系数用于度量数据分散程度的两个不同方面。
美国和苏联持续关注各自的相对国防能力,由于两国对舰船的分类大相径庭,因而很难对他们的海军舰队实力做出比较。在分析两国舰队实力前,首先可以比较他们海军护卫舰的数量和大小(排水量)。舰船数据的柱形图显示,两国对护卫舰的定义差别很大,苏联护卫舰比美国的小得多但数量占优势。
利用下列数字就可以描述两国各自的“典型”护卫舰

美军护卫舰尺寸的平均数为6379吨,中位数为5670吨,众数为4700吨,其分布不符合钟形曲线,其平均数、中位数和众数的值差异较大。联舰船尺寸平均数为1070吨,其中位数和众数均为950吨,美军舰船的变异系数是0.2723,苏联为 0.1463,因此,美军称为护卫舰的舰船分类盖的尺寸范围比苏联更广
相比护卫舰,美军远洋护卫舰的舰船与苏联的护卫舰更相似。如果绘制一个远洋护卫舰柱形图,将会显示一些远洋护卫舰的尺寸与苏联的护I舰接近,尽管美军远洋护卫舰分类范围更大一些。美军远洋护卫舰的平数、中位数和众数分别为 3494、4100和 4100 吨,同样的方法可以用于析两国海军所有舰船的类型和特点,对基于排水量和级别的舰队力量的图解结果进行判读,是比较两国舰队的便捷方法。

四、抽样理论
很多时候,分析人员或研究人员想绘制一个“对手”活动的分布图,这对于发现一些反常情况十分重要,没有分布图 (或其他原始资料数据),就不可能判断出某个事件或状况是否典型。例如,情报分析人员想要绘制某国通讯社发送的信息种类的分布图,他希望该分布图可以代表
“典型”的一天,因此,他要回顾该通讯社一段时间内发送的信息。如分析人员无法阅读该通讯社发布的每一篇报道,他就只能选一部分来仔阅读。
研究人员感兴趣的所有内容项目也许涵盖了该通讯社某月发布的所有文章。这个数据的全体称为总体或全域,从总体中选出来用于分析的部分称为样本。如果样本选择仔细,就可以根据样本特征推断总体特征。选择样本的方法有好几种,具体选择哪种方法取决于抽样的目的。
随机抽样
随机抽样给予总体中的每个个体平等的被选择机会。选择随机抽样时经常会采用随机数表,其他的随机抽样方法包括从帽子中抽取带有编号的纸条法或投硬币法。在本例中,可以采用随机数表来帮助我们选择哪些时段的通讯报道需要仔细回顾,还可以预先决定在某一天选择 10篇发布的报道。这10篇报道可以根据随机数表选择,记下10个5位数的后两位沿着第一排数字查找。这 10个两位数应该是 56、57、42、22、06、45、55、05、30和80,那么当天需要阅读的报道将是第5、第 6······直到2400小时后发布的第 80篇报道。
【所以,为什么推荐读报纸比手机更有效(摆手)】
该例还有更简单的抽样方法,那就是使用每篇文章标题数据里的时间日期抽样,例如可以选择每个整点第 37 分钟左右发出的报道。这种抽样方法尽管可以接受,但有时容易产生偏见。例如,如果想监视广播报道,分析人员选择每小时第 55 分钟的节目作为研究对象,它发现这个时段经常是体育或天气报道。基于该偏见性广播报道样本的分布图就会让人觉得,该电台所有时间报道的都是体育和天气情况。
【看军事频道学习种地(doge)】
随机抽样的一个主要好处是,分析人员可以根据抽样来评估集中或分散趋势量数的准确性。因此,分析人员就能回答这样的问题 :“我对所计算的抽样平均数在总体平均数范围内有多大的置信度?”
从盟军士兵身高的例子可以看出建立置信水平 (confdence level)的用处,参与身高测量的 225 名B部士兵也许是从一个几百万的总体中抽取的随机样本,他们的平均身高为62.42 英寸,该平均身高也许和总体身高相同,另一方面,也许有人会质疑说B部士兵的平均身高是64英寸。分析人员可以用下面的方式为其计算的平均身高建立一个置信水平,他知道样本的大小、样本平均数和样本标准差。
n=225
x=62.42“”
co = 3.93“”
从随机抽样的数学理论来讲,他也知道他的样本平均数可能高于或低于总体真实平均数。如果从总体中选取几个样本,大部分样本的平均数会稍大或稍小,一些样本的平均数会过大或过小。
如果xpop 代表总体真实平均数,很多样本平均数将接近真实平均数(有 33 个样本的平均数为x2,略大于真实平均数),只有个别样本平均数偏差较大 (8 个样本的平均数为x,小于真实平均数较多)。分布于真实平均数两边的各样本平均差会形成正态钟形曲线。
样本平均值的标准误差(standard error) 必须经过计算,以确定62.42英寸的估计平均身高在实际平均身高的估计区间内的可能性。标准误差的计算公式如下:
co/x=o/n
如果把样本的co作为总体标准差的估计值,该公式变化如下:

要为估计平均身高 62.42 英寸建立置信水平,必须查找正态分布表该正态分布表可告诉分析人员,估计平均数在真实平均数区间内的可能性。例如,如果分析人员算出身高范围为从 62.42"-1co/x或62.42"-0.262"= 62.158"到62.42"+1co/x或62.42+0.262"= 62.682“
正态分布表告诉他,真实平均数位于该实际数据范围的概率为 68%。另一方面,分析人员可以首先明确身高范围,从而使真实平均数位于该实际数据范围的概率达到95%。分析人员通过查对分布表发现,95%的置信水平为样本平均数上下1.96 个标准差,这样就可以确定出样本的范围62.42"-1.96co/x或62.42"-0.514"= 61.906”
62.42"+1.96co/x或 62.42"+0.514"= 62.934"
随着量信水平的增加 (本例中从 68% 增加到 95%),范围大小也会增加,随机抽样也可以使研究人员确定数据的点数(n值),从而对分析结果的置信水平有一定的把握。
分层随机抽样
分层随机抽样(stratified sampling)的目的是选取能够代表整个调查对象特点的样本。分层随机抽样通过两步来实现。首先,将总体分为若干子集,这些子集具有相似的特征变量值,它们正是需要研究的内容,你需要记下每个子集的大小;然后,根据每个子集在总体中所占的比例,简单随机抽取一定大小的样本。
例如,要制订一项军用民事行动计划一一如建一座桥,需要对村民进行民意调查。如果不可能(或者不可取) 和每一位村民面谈,就可以根据村民的年龄、性别和职业 (特指该例中) 建立访谈对象的人数和类型,确定每组对象的人数,计算每组对象人数在总体中的比例。然后,从每组每5%的人中,选择一个作为访谈对象。这样,孩子占村民人数的 30%,因此,就可以随机选取 6 个孩子代表村里的所有孩子。本例中,通过每5%选一个对象,最终将产生一个约20 人的样本。
(控制样本大小有助于分析人员估计总的访谈时间)。
如果每组至少有一人进行面谈,“其他”组至少应选择一人。由于其他”组的人数只占总体人数的 3%,因此在样本中的比例略高。
如果总体分成子集(分类)的分法恰当,相比于大多数的随机抽样,分层抽样会产生更具有代表性的样本。但是,无法对分层抽样的值进行置信水平评估。而且,要定义子集,就必须了解更多关于总体的情况,在缺乏人口统计数据的情况下,也许很难进行分层抽样。


五、概率概述
概率论是推断统计的数学基础。概率论能够产生随机事件发生频率的“理想”分布,正态分布就是一个“理想”分布的例子。在“理想”情况下,具体x值的相对频率可以精确绘制出来,这样所选的6个x值都位于正态曲线内。现实数据很少能够完全符合该理想数据模式,事件发生的频率要么太过频繁,要么不够频繁,如曲线B和曲线C,它们各自的6个值分别分布在曲线上或下。然而,曲线B和C代表的两组数据非常接近正态分布曲线因而可以将正态分布曲线作为分析这些数据的基础。

概率范围为从不可能(概率为0)到绝对可能(概率为 1)。按照概率个事件可以发生或不发生,假如 p 是事件 E 发生的概率,其不发生的概率q 可以表示为方程:q=1-p。
例如,民主党(D)、共和党 (R)、自由党 (L) 和保守党(C)每个党派都指派一位候选人竞选美国参议院议员。假如前两位获胜的机会比后两位大一倍,同时,假如一定要进行选举,那么每位候选人获胜的概率可以表示为方程:
Pr【D】+Pr【R】Pr【L】Pr【C】=1,或2/6+2/6+1/6+1/6=1
自由党候选人不能获胜的概率见方程:
Pr【NOT L】= 2/6+2/6+1/6=5/6
概率法律(additive law of probability) 指出几个互斥事件中某一事件不发生的概率等于各个独立事件发生的概率之和。
另一概率定律一一乘法律(muliplicative law) 指出,几个接连发生独立事件的概率等于各个事件的概率的乘积。在选举的例子中,乘法律用于计算两个自由党竟选人在两个州竞选参议院议员的概率。
假如自由党在每个州获胜的概率为 1/6,其总概率可以用方程表示:
Pr【L in both】= 1/6 * 1/6 = 1/36
概率分布
可以计数的数据,如城市人口,称为离散数据 (discrete data);可能发生在某个范围内任一点的数据,如车速,称为连续数据(continuousdata)。情报研究人员有时必须同时测量离散和连续现象,两种数据都有几种重要的概率分布。这里只详细探讨其中的三种:正态分布、二项式分布和指数分布。
所有的概率分布都可以通过绘图来表示,即将事件发生的次数绘制在一个轴上,将事件发生的概率绘制在另一个轴上。一个表示数值频率的柱形图与用同样数值绘制的概率分布图之间的关系,可通过下面这个智商(IQ) 测试结果的例子得到解释。
智商测试结果柱形图表示的是某一样本人群的智商分布。该图显示该人群中大部分人的智商处于平均水平,该柱形图形状接近对称,表示高智商人数与低智商人数差不多。

正态分布
一个有经验的研究人员从该柱形图的外观就可以看出,该分布图接近正态分布。当正态分布作为数据分析的模型时,就可以根据正态分布,而不是数据的原始柱形图,做进一步分析。要使现实数据匹配理想的概率分布.往往要从足够大的总体中抽取样本。例如用于描述智商测试结果的正态分布图由230个样本组成,它取自一个10000人的总体。研究人员假定该总体的智商分布为正态。智商分布图稍显不规则的原因在于,该样本不太具有总体代表性。正态分布是一个连续分布,它可用于描述各类数据,包括能力、人群身高,以及机器生产的产品大小的细微差别等。
二项式分布
二项式分布(binomial distribution)描述的是离散数据。它用于描述发生概率(p)固定的事件或检验数量n)有限的情况下数据的分布。例如,计划者考虑向一个敌占区的反对派空投补给物资,他们可能知道反对派只占总人口的 1/3 (p=1)。他们希望,如果投送 10 包物资,至少可以送到5群反对派中。 n=10、p=1/3 情况下的二项式分布。
为了得出 10 包物资投送到至少 5 群目标人群的概率,必须将法律应用于二项式分布。
1. Pr[at least 5]= Pr[5]+ Pr[6] + Pr[7]+ Pr[8]+ Pr[9]+ Pr[10)
2. Pr[at least 5]-0.136+0.057+0.016+0.003+0.0003+0.00002=0.21232

投送到至少5群目标人群的概率只有 0.21,即 1/5 的概率,这样的简单分析既没有考虑总体人口数量,也没有考虑目标人口数量。如果假设的任务目标是使物资送到至少 50% 的目标人群,总体人口数量就是一个重要的考虑因素。
指数分布
指数曲线可以准确描述一个无限数量事件发生的可能性。例如,飞机到达航母的时间间隔可以称为一个事件,如果两架飞机同时到达,它们到达的时间间隔就是零(0),因此:
事件1(到达时间间隔)=0
如果另一架飞机两分钟后到达,那么:
事件2(到达时间间隔) =2
有些情况下,例如实施空中打击后,通常多架飞机会同时飞抵航母上,因此,最常见的事件值(到达时间间隔) 是零 (0)。那么在描述飞机到达概率的分布图中,最常见概率值为 (0),到达时间间隔为1分钟的情况不大可能,5 分钟更不可能。信息传输持续时间也可以称为一个事件。信息传输的持续时间通常很短,不大可能持续3 分钟,更不可能持续6分钟:指数分布可以很好地描述信息传输的持续时间。
指数分布还可用于描述武器的使用寿命。一个批次的所有无线电发报机在出厂前经过检验均使用正常,1 年后大部分仍可以使用,但是4年以后可以使用的就为数不多了 (如果不加以修理的话)。

选择哪一种分布取决于所要描述现象的特征。例如,持续时间通常用指数分布来描述,而能力划分则用正态曲线来描述。概率分布是强大的预测工具,因为它们告诉研究人员某一事件的哪些值最可能发生。这些简要描述的意图不是教大家如何创建或发展这些分布,而是描述可能与某个问题密切相关的分布类型。

六、小结
统计学是研究大量数字数据的搜集、分析和推断的科学。
定量数据不一定需要进行统计分析。有时,简单的数学公式就足以进行定量分析。
描述统计可以使分析人员建立一个数据分布图。描述统计包括 :
频数分布(或数值曲线图);
柱形图 (以条形图显示的频数分布);
数据的集中趋势量数:平均数、中位数和众数;
数据的分散或分布量数 :标准差、变异系数及其他;
抽样理论使我们可以基于对总体很少一部分的分析而形成对总体特征的把握。
“两种常见的抽样方法是随机抽样和分层随机抽样;
“随机抽样的优点是,它可以使我们推断样本具有与总体类似特征的可能性。
概率论为推断统计提供数学基础:
“概率论使我们可以形成“理想”的数据分布,从而可以把它与实际数据分布进行比较,
举例说明三种常见的数据分布:正态曲线、二项式曲线和指数曲线。