欢迎光临散文网 会员登陆 & 注册

分类:分析的基本步骤

2023-07-05 14:48 作者:仙子雨岸  | 我要投稿

        分类是对信息进行归类的过程。【在情报研究和分析中,信息经常被划分为不同等级,依据即是其在未经批准情况下泄露可能对国家安全造成危险的程度,这也许是该词(分类,classification在情报分析中最为人熟知的含义】“在涉及大量调查、需要制作许多交叉表的研究项目中这一过程不可替代,在小型调查研究中也很有用。分类不仅是快速处理信息的方法,而且是解决问题的手段。本章所举的两个例子是关于生物学和物理学方面的分类。分类应用于各门学科,产生了大量的重大发现;可以想见,情报工作同样可以产生类似“发现”。

一、科学研究与情报工作中的分类

        科学家可以将某个物体、生物、事件、状态或活动进行归类,然后推断其特征,这些特征如果不归类可能就不太明显。例如,生物学家看到一个四趾、伸缩爪动物的脚印,根据物种知识将其归类为哺乳动物(两栖动物有四个脚趾却没有爪子,爬行动物有五个脚趾但爪子不可伸缩)。归类后,根据哺乳动物的特征,推断出该动物多毛并哺乳幼仔。此外,根据伸缩爪的特征,生物学家推断它是食肉动物,所以很可能长有门牙、犬齿和白齿。这样,生物学家凭着一只脚印,通过将观察现象归类,然后根据该类的共同特征推断其他特征,从而准确地再现了这个未曾见过的动物。

院子里发现一个大脚印
生物学家还原的假想概念图(可能某种恐龙)

        情报中类似的推断可用于分析外军飞机的性能。例如,俄罗斯“苏霍伊”(Sukhoi) 强击机“击剑手”(Fencer) 除了可变机翼,与 Su-7BM“装配匠”(Fitter)外形很相似。尽管细看会发现两者各有特点,但可以推断两者任务差不多,且新型号“击剑手”的性能不会比其前代机 Su-7和Su-17低。同样,民用11-18 中程运输机与11-38反潜战/巡逻机几乎一模一样。由于接触民用飞机比军用飞机容易,可以通过仔细研究 11-18飞机来了解11-38军机的特征。

击剑手”(Fencer) 【SU-24】强击机

        

Su-7
SU-17
11-18运输机
11-38反潜战/巡逻机

        为进一步说明分类在情报研究与分析中的应用,在此简要探讨一下元素周期表的发展历程。1869 年,季米特里·伊万诺维奇·门捷列夫发表了篇文章,根据元素表现出的属性将其分类。他写道,“当我按照元素原子量大小从最小开始排列它们时,发现这些属性存在周期性······我将元素属性和原子量之间的相互关系命名为“周期律’,这些关系适用于所有元素,并且具有周期性。”

元素周期表

        他发现了一个重要的事实,即有些情况下,他的分类标准(原子量)在排列某些元素时并不恰当。例如,如果只按照原子量的标准,碲的原子量为 127.61,在元素周期表中应排在碘 (126.91)之后,但是根据确的其他属性把它排列在碘前,就可以使它归人与其属性非常相似的硒族元素:同时,碘也可以归入与自己属性非常相似的溴族。

硒族元素(氧)、溴族元素(氟)

        这种排列配置的价值显而易见,当门捷列夫无法补全周期表时,他声称,周期表中的空缺元素“应当被发现”。而且,根据空缺元素前后元素的属性,门捷列夫还预测了那些待发现元素的属性。(门捷列夫在有生之年发现了他所预测元素中的三种,它们的属性与他之前的预测相符。

        在情报分析中,创造一个作战序列与建立元素周期表相似。例如.基于对敌人作战原则的了解和以往的经验,可以确定敌人通常在边境部署两支部队,预备一支部队。基于对一支边境部队和另一支 (假如说预备部队)以及它们编制的了解,就可以试着推断另一支边境部队的编制和身份一一即使无法接触到这一部队。当然,情报分析人员(和门捷列夫一样)不能确信缺失元素的成分是什么,但他确实有一个看似合理的想法。

作战序列定义
军事推演红蓝对抗编制图

        分析和研究人员利用分类辅助推断的另一个例子是,如果分析人员了解敌人通常部署某种武器系统(如地对空导弹系统)的特定几何模式,当他获得某个未知武器系统的部分信息,而这些信息与先前了解的武器系统部署模式相吻合,那么他可以根据该未知系统的布局将其归入某具体武器种类,再根据该武器种类的知识推断未知系统的其余布局和大致特点。

        此外,在情报分析中,分类还可用于系统的宣传分析或内容分析(关于外国出版物、大众传媒或军方和政界要人的公开声明)。最基本的系统内容分析包括公众话语分析、重要内容识别、将编码话语(内容成分)归入预设话语类、列表结果分析(如相关性、解读等)。尽管说起来简单,但具体实施起来要复杂得多。例如,内容要素 (或者最好是录音材料)也许是一个短语、几个词或仅仅一个词,那录音材料就必须精确界定,还必须毫不含糊地界定录音材料的分类或类别,仅仅是录音材料的分类规则也许就要查阅几百页之多的工具书。

【宣传分析中容易混淆编码和分类过程,因为所要分类的语句本身模棱两可关于宣传分析问题的更多讨论,】

二、为什么要分类?

        分析和研究人员对信息分类的原因有两个:理解信息和出于方便。作为理解的辅助手段,分类通常可以表明信息之间的关系,这些关系在杂乱无章的情况下往往难以察觉,明确信息关系可为下一步的比较和预测打下基础。回溯之前的两个例子,正是由于对信息进行分类和排序,门捷列夫才能预测缺失元素的属性,同样的,分析或研究人员基于结构相似性两种飞机归入同一类,才推断出两者具有同样的性能特点。

        信息分类还可帮助研究人员发现缺少的信息,这是提出未来信息搜集要求的第一步。此外,分类体系可为研究人员呈现信息结构的全貌,为其研究提供一个模式或格式塔(结构)。但多数研究人员对信息进行分类是为了方便,有了分类体系,他们在与他人交流时就可以使用属名(generic or class names)而不用提及其具体名称。例如,在多数情况下使用“Do”(destroyer)或“驱逐舰”比使用““普雷斯顿’号驱逐舰,编号 795、之后的“弗菜彻’级”更方便。(当然,有时也需要使用某物体全称。)

        此外,分类体系可以将研究人员从纷繁复杂的细节中解放出来,以便集中精力分析他所研究的那一类现象的群体特征或属性。由于对分类信息进行了索引,因而很容易检索。因此,依靠分类体系,研究人员既可以只需要类别属性时过滤细节,也可以在必要时提取细节。总之,对信息分类使分析人员能够将无限的信息转化成有限的、易于管理的成分,这些成分既能存储也能检索。

        设计周密的分类体系带来的另一个便利是它提供了一种方法,该方法使得在每次加入新信息时,不需要对文档进行大量调整。有了详尽的分类体系,研究人员只需将已经建立的类别进行扩充,就可以加人新信息。

        最后,分类体系还为使用者带来一个便利,即只要懂得了该体系的基本原理,无论多少人都可以使用同一分类体系。分类体系的基本原理指的是信息分类(或纳入体系) 和检索的规则。事实上,只要把规则定清楚,信息的实际分类、存储和检索就可以自动操作。

【AI自动检索分类,不错的选择】


三、编码:最基础的分类

        最基础、分析和研究人员最熟悉的分类过程,也许就是编码过程。

        诚然,编码起初是为了处理大量信息,但也可以有效地应用于小型研究项目中。编码有两个基本步骤:

(1) 将信息分类;

(2) 根据项目类别给每个项目分配一个编号或代码。

        使用计算机处理信息时,这一简单步骤必不可少。每一个进人计算机数据库的信息都要经过分类和编码,这对于分析人员进行人工分析也很有帮助。

        关于个人资料和回答问题的内容。首先,信息以单独的访谈计划表或问卷调查表的形式加以记录。显然,这种形式的信息处理起来几乎不可能,而且,任何单独信息显示的只是来自或关于单个对象的信息,不能显示总体人群回答问题的模式。然而,如果按照预先确定的分类模式对这些回答进行编码,只需将回答类别制成表格,就可以分析群体回答的特征。

        记录所有实验对象的回答,如何将同样的信息进行汇总,以便做进一步分析。例如,我们可以看出,所有尉官的回答都比较一致,但与其他对象的回答不同,步兵和炮兵的回答相似,但与后勤兵的回答相异。诚然,由于该样本量相对较小,因而各类人员的统计差别并不明显,但这样的制表的确可以显示出回答模式的差异。如果将这些数据输入计算机内,就可以不断增加数量,也许还可以揭示出更多该汇总表中所没有揭示的回答模式,如年龄与军衔、兵种与年龄、部门与兵种的相关性等。

        所举的这一实例中,样本大小只有 89 人,如果样本量再大些,就需要使用数据处理系统。当然,如果必须进行数据统计分析(不包括计数),就需要用到计算机,或者至少需要一个手动计算器。

【适合“手动处理”的极限数为大约 150个实验对象】

【当然,你可以尝试一秒内录入多条信息。。。。】

【插图社政敏感,已做无害化删减处理。。。】

四、分类的两种含义

        分类作为一个动词,有两种含义,一方面指的是将某一具体信息分配到分类计划预先确定的位置,另一方面指的是将信息按照相关子类分开并组织起来。严格来讲,第二种做法称为划分 (division)。分类的第一种含义,即将某一具体信息分配到分类计划预先确定的位置,可以用截获接收机操作员侦查雷达信号的活动来举例说明。操作员发现该信号的参数与某类预警雷达完全相关,据此判断该信号来自某特定预警雷达。在本例中.预先确定的每个信号参数的上下限构成了分类的标准。

【类别也称为定类尺度。上面所定义的分类的第一个含义实际上是一种计量方式,虽然只是一个粗略的计量】

        分类的第二种含义,即将信息按照相关子类分开并组织起来。以军用交通工具分析人员的活动为例,分析人员可将军用交通工具这一总类划分成任何子类,如他可以按照推进模式、轴数、用途、重量等方式分类。以下的讨论主要围绕分类的第二种含义 (即进行划分) 展开。

五、分类的步骤

        分类过程可分为五步,这种步骤划分没有精确的标准或严格的次序但通常在将某一对象分类前会确立分类标准。具体步骤如下 ;


1.确定分类体系的目的。

这一步骤非常重要,因为分类体系的目的决定了分类的类型。

        分类学(关于分类的科学) 学者知道两种基本的分类体系:自然体系和人为体系。自然体系基于被划分事物的基本属性,如由几部分组成、尺寸、颜色或形状。自然分类的例子包括之前所说的元素周期表、基于植物花器部分的植物分类、基于频率和其他信号特征的雷达分类,或者基于推进模式/发动机数量的飞机分类等。

        人为分类往往会显示使用者的需求。根据生产国对雷达进行分类、将飞机分为“可疑的”和“友好的”、将海岸和登陆海滩按照适合登陆作战的程度进行划分等,都是人为分类的例子。

        完全自然和完全人为分类体系的折中称为诊断系统 (diagnostic  system)。诊断系统既能反映被分类事物或现象的自然属性,又能反映分类者的意图。例如,按照不同气候条件下的交通处理能力对道路进行分类,按照其功能对雷达进行分类等。

        索引分类(index classification) 完全属于人为分类。索引分类首先考虑的是数据的可访问性,从这个意义上来说,使用者的需求决定了分类标准的选择。索引分类的例子包括:杜威十进制分类系统、美国国会图书馆分类系统、书籍的索引以及按字母顺序排列的任何信息。与情报关系更密切的索引分类包括按照缆索数目对船只进行分类、按照字母顺序对国家元首进行列表,以及按照信息到达时间进行分录分类等。

        总之,制定分类方案的目的决定了哪种分类体系最为恰当。


2.确定分类目的后,需要观察待分类现象或关于现象的信息中哪些特征可作为分类标准。

        研究人员应该思考这些事物、事件或其他现象的共性是什么?它们具有哪些特色或独特性?研究人员应充分展开想象力,考虑到待分类事物的所有相关因素,有些出现在脑海中的特征刚开始似乎比较肤浅,但这一步骤是找出各种分类可能性的一个尝试性步骤。


3.从需要分类的事物、事件或现象中找出能够满足分类目的的特征。

        分类的功能应围绕那些与分类目的有关的现象特征。任何现象都可以有多种分类法,最好的分类法是能满足使用者特定需求的分类法。例如,如果研究人员研究大杀伤半径武器系统,他会发现基于武器系统精度的分类与此没有关系,因为杀伤半径可以弥补任何精度不足。

        根据不同需要可以对导弹进行如下分类:如果射程是重要的考虑因素,导弹可分为远程导弹(大于 5000 海里)、洲际弹道导弹和中程导弹(300-1500 海里)或中弹道导弹和短程导弹 (小于 300 海里):如果速度是重要的考虑因素,导弹可分为亚音速、音速、超音速(喷气速率介1至5马赫之间)和极超音喷气速率超过 5 马),基于控制系统,导弹可分为非制导/自由飞行火箭或制导导弹。制导导弹根据其制导系统还可以进行再分类,如指令制导、航迹推算、定位和自导或寻的制导系统导弹还有其他的分类方法,但要明白,任何现象毫无例外都可以根据其自身特征进行各种分类,但最重要的是要根据分类者的需要。


4.确定各等级间或等级与等级之间的关系。

        这一步涉及两件事,首先是给出判断两个事物相关的定性标准,其次是给出事物划分的高低等级。基本来讲,研究人员必须确定(或建立) 各个条目对应虚构的抽象概念阶中的哪一级。例如,“苏联喷气战斗机”作为一种空中飞行器在虚构的抽象概念阶中,高于“米格战斗机”但低于该阶中的“固定翼飞机”。

        分析和研究人员也会碰到不需要划分等级的情况。例如,雷达可按照频率分类为脉冲重复频率(PRF)、脉冲宽度、扫描频率和偏振模式。这种情况下,具有相同运行参数的雷达可划归一类。例如,将运行频率在1550-3900兆赫的雷达划为一类,称为 S 波段雷达,或者将位于某个特定地理位置的各种雷达划为一类,再按照功能进一步分类等等。这些分类均没有考虑等级因素。


5.将分类标准应用于“全体”,所有个体都划归到相应组中。

        这一步完成后,你就已经做完了一轮工作。这一步骤的做法与分类的第一种含义完全契合,也就是说,将个体划归到特定类别中。

六、分类体系的测试

        在大规模应用某个分类体系前,应该进行初步的试验,在试验前,还应围绕以下几个问题对该体系进行检查 :

1.现象的分类规则是否一致?


2.各类别是否相互排斥,即类别之间有无重叠? 

(现象可以有多种分类法,但每种分类模式都自成体系。)


3.体系是否完善?能否满是设计意图

(即是否存在与现有类别不适应的成分) ?


4.每种分类是否都可以至少划分成两项?

(如果没有两个次级项,就不能称其为一个类)


七、分类是去掉部分之后对现实的抽象

        之前关于分类的讨论是围绕分类二元设计的“两可”逻辑。应该注意所有分类计划都具有任意性,每种分类体系或多或少都能反映现实世界。尽管我们可以抽象地说某个事物或事件属于这个或那个类别,但现实世界很难符合一个理想的分类体系。分类者通常只是随机决定群组分配,只要记住分类的目的,随机决定并没有什么坏处。但是,保持一致性非常重要,这样,任何使用该体系的人才会将同样的现象以同样的方式分类。最后需要记住的是,即使对专业分类学者或“分类者”来说,分类本身也不是结果,尤其是在情报研究中,分类只是分析过程的第一步。

八、小 结

  • 分类,即将信息分配到不同类别的过程,是各类研究、许多问题解决活动和所有检测活动的一个必要步骤。

  • 分类有两个主要的目的更好地理解信息,更方便地存储和检索信息。

  • 分类过程通常涉及五步:

  1. 确定分类的目的;

  2. 研究待分类现象的信息,以便建立将信息归类的依据;

  3. 按照信息分类的目的选择恰当的分类依据;

  4. 识别各类信息之间及各自之间的关系,例如等级关系、子集关系等等;

  5. 将信息划归到具体的群组或类别中。

  • 分类规则要求 :

  1. 现象(或信息)的归类要一致 ;

  2. 各分级或分类之间应相互排斥 ;

  3. 体系要完整,所有成分都能够归入某一类,并且不会剩下任何成分;

  4. 每个母集至少要有两个子集。



分类:分析的基本步骤的评论 (共 条)

分享到微博请遵守国家法律