大数据背景下社会系统优化定量研究
大数据背景下社会系统优化定量研究
李忱 黄强
摘要:社会优化的思想自古有之,东西方哲人都对此进行了积极的探索。但是,以往的优化思想多以主观描述为主,缺乏科学性。系统科学、系统哲学的出现为优化问题奠定了科学基础,最小作用量原理的提出为优化问题提供了理论依据,变分法成为解决优化问题时可以使用的数学工具,基于这三个条件,本文给出了社会系统优化问题定量研究的一般方法。
大数据时代的到来,标志着人类在量化认识世界的道路上迈出了一大步,过去不可计量、分析、存储和共享的很多东西都被数据化了,这无疑为社会系统的定量研究提供了极大的便利。
一、引言
社会优化的观念长期存在于人们的思维认识和实践活动之中,东、西方哲人都对此进行了积极的探索。儒家文化无疑是东方文明的代表。
儒家强调“和”的理念,即协调各种社会关系,化解人与人之间的对立、冲突,使“父子有亲,君臣有义,夫妇有别,长幼有序,朋友有信”,进而使整个社会达到和谐状态。
法家继承了荀子人“性本恶”的思想,提倡以“势”(统治者的地位和权利)、“法”(法令、法律)、“术”(统治权术)等刚性手段来治理国家,以此实现富国强兵。
道家则主张顺其自然,无为而治,倡导一种无君无臣、无须治理的社会模式。
儒家的礼治、法家的法治、道家的无为而治,这些思想虽各有差别,但无不包含着对理想社会状态的追求,都体现了社会优化的意识。
西方文明对于社会优化同样进行了丰富的尝试。
柏拉图在《理想国》中设想:由哲学家充当治国者以保证治理活动公正、无误,由武士保卫国家,由农民和手工业者从事生产,这样可以使社会各阶层在功能上各得其所,整个社会有条不紊。
霍布斯在《利维坦》中提出:通过选举产生君主式政体,并赋予这个政体绝对的权力,每个人必须尽责和服从,通过这种无条件的服从可以将所有人都凝聚在一起,形成“社会共同体”。这个“社会共同体”则可具有保护民众不受外来者入侵、且不致彼此伤害的功能。霍布斯认为这种君主体制是有可能建成的最好的社会统治系统。
此外马斯·莫尔的“乌托邦”,培根的“本色列”,奥古斯丁的“上帝之城”等都可视作西方文明中对社会优化的探索。
不可否认,这些早期的社会优化探索,对社会发展起到了推动和引导作用。但也应认识到,这些朴素的社会优化模型基本上只是由立论者想象而来,是他们主观希望存在的社会构体,并非借助推理演绎得出,缺乏科学性。由于时代的限制,这些朴素的模型只着重描述了人类社会的优化,忽视了人与自然共存的问题。
马克思的出现扭转了这一局面,他从人、从统治与被统治阶级、从社会、经济的角度,观察社会现象,总结社会规律,阐述了人类社会的合理发展即优化问题。马克思提出的克服劳动异化、废除资产阶级所有制、争取人类解放和实现共产主义等思想可以看作是人与社会关系的优化、社会本身的优化。
针对人与自然的关系,马克思指出:“社会化的人,联合起来的生产者,将合理地调节他们和自然之间的物质交换,把它置于他们的共同控制之下,而不让它作为盲目的力量统治自己;靠消耗最小的力量,在最无愧于和最适合于他们的人类本性的条件下来进行这种物质交换。”
这种优化思想是说:
1、人类必须通过对生产行为的“有意识有计划的控制”,才能实现人与自然的和谐,这是人类社会健康发展的根本前提;
2、在人与自然物质交换的过程中,应当以最小的耗能来实现“人类本性”的需求。
这里,马克思指出了人与自然的物质交换的最适于人类本性的人适原理和能耗最小原理。这是人类社会作为一个复杂巨系统优化发展的核心问题。
马克思把社会乃至于全人类作为一个宏观整体进行考察,给出了社会优化的指导原则和优化发展方向。可以认为,持续了一个半世纪的国际共产主义运动,就是在马克思社会优化思想的指导下,以改造人类社会中的不合理状态为目的而进行的实践和努力。20世纪中叶兴起的系统科学,为社会系统优化研究提供了科学依据,也使定量地解决社会系统优化问题成为可能。
二、系统哲学中的社会优化思想
系统哲学认为:
优化是使“系统之间、系统与要素之间、要素与要素之间、结构层次之间内在的各差异部分,在整体上协调一致”的过程。
优化的目的是使系统达到和谐的状态,“和谐系统”的一个重要表征是符合“最小作用量原理”。
“最小作用量原理”是说:系统的运动、演化过程是一种耗能、费时的过程,和谐系统在发展演化的过程中能够最大化地利用外界输入的能量来做功,并在发展演化的过程中耗能最少、费时最短。相反,自然选择会淘汰能量利用率低的系统。
无疑,人类社会是一个大系统。系统哲学的优化思想为社会优化提供了两条可行的进路:
1、基于环境选择的社会系统优化。
假如一个复杂系统欲保持其原有的功能,那么该系统就必须不断协调自身与环境之间的关系,该系统必须与其所处环境,以及环境中的其他系统共同发展,建立充分的协作关系。这种协同作用的结果是产生了一种更高层次的组织系统。这就是协同进化的全部过程,其结果是适应当时环境的和谐系统的产生,也就是整体的优化。
在人类社会有记载的历史中,正是由于协同进化的存在,才使得我们所生存的这个世界由原始部落、氏族公社、村落、地区、省份逐渐进化成为今天这样一个多元化的ZZ、经济和社会的复杂系统。而每一次这样的变G,都是适应当时生产力、当时环境的社会优化。社会系统通过与外部环境的相互选择产生了最优状态、最优过程、最优功能。
人类社会是在动物社会的基础上,在环境选择的作用下逐步演进出来的,不存在外在的设计者和组织者。即使在现代社会,由于社会系统的巨大规模,多样化的组分差异,复杂的非线性相互作用,丰富的动力学特性,复杂的层次结构,以及各种各样的不确定性,系统内部时刻都存有不同层次、不同式样、不同规模的环境选择下的优化。
但应该注意到,依赖于环境选择的系统优化过程往往过于漫长,且存在着极大的盲目性。在科技迅猛发展、社会环境飞速变换、人类实践范围日益扩大的今天,依赖于环境选择的优化方式越来越难以满足社会发展的需要,诉诸于人类理性、及时快速的社会优化方法成为急切需要的东西。
2、基于“最小作用量原理”的社会系统优化。
系统哲学中“最小作用量原理”以耗散结构理论的最小熵产生原理(principle of minimum entropy production)、复杂系统中的最大功效原理(maximum power principle)和自然界中的最小作用量原理(least action principle)为自然科学基础,由乌杰教授在著作《和谐社会与系统范式》中升华为哲学理论,他指出:“凡是符合‘最小作用量原理’的物质都是和谐的”,并在《系统哲学之数学原理》中进行了详细的论证。
“最小作用量原理”具有重大的社会意义,它揭示出人类社会系统、生态系统为了持续生存、发展,在与环境的相互作用中,必须以最少的能量取得最佳的效益,使效率最大化。和谐的社会结构必须是最科学、最合理、最优化的社会结构,必然是效率最高、成本最低的社会结构。
自然科学中的最小作用量原理最早产生于17世纪60年代,即几何光学中的最小时间原理,“光线从一点行到另一点所遵循的路径,依所需的时间为最短者”。
17世纪末18世纪初,牛顿(Jssac Newton,1642—1727)、雅可布·伯努利(Jacob Bernoulli,1654—1705)、约翰·伯努利(John Bernoulli,1667—1748)、泰勒(Brook Taylor,1685—1731)在对“最速降线”等“最小量”问题的探索中,提出“变分法”。
18世纪40年代,欧拉(Leonard Euler,1707—1783)出版了第一本变分法专著——《求某种具有极大或极小性质的曲线或解最广义的等周问题的技巧》,这可视为变分法发展过程中的一座里程碑。
之后,拉格朗日(Joseph Louis Lagrange,1736—1813)又对欧拉方法进行了改造和变G。拉格朗日的变分方法开启了变分法发展的新时代,极大地发展和拓宽了变分法的研究范围。
乌杰教授指出,最小作用量原理发展的最关键的一步是由拉格朗日用变分法对它作出最基本的数学表达。取非等时变分号为△,最小作用量原理可表达为:

为第i个物质,
为第i个物质的运动速度,
为第i个物质在各自一定的时间间隔内所运动经过的距离。
。
用能量代入上式,可变换为:

其中,,
表示在n维空间中的两个点,上式为通过该两点的路径积分的变分。
如伽利略所言:“大自然的书是用数学语言写的”,和马克思所说:“一门科学只有当它成功运用数学时,才算到了成熟的地步”,社会科学成熟的程度,也取决于数学的应用程度。以最小作用量原理为理论基础,以变分法为数学分析工具,这使社会系统的定量研究成为可能。
三、基于最小作用量原理的社会系统优化建模
社会学对社会和谐的理解,主要是从社会结构、社会阶层、资源配置等角度进行。
从社会结构角度看,要求社会各个环节、部门、领域的关系协调、有序、稳定,社会成员、组织、阶层之间的关系协调、融洽、无冲突;
从社会阶层角度看,要求社会各阶层利益协调、相互开放,各阶层的基本利益均能够得到保证,社会资源能被有效利用,从而确保社会全面发展;
从资源配置角度看,优化的社会系统在资源配置方面应该达到“帕累托最优”且严格公平,资源配置的“最优”可以保证人与自然的和谐,严格公平保证了人与人的和谐。
综合学术界已有的观点,本文认为从社会关系和谐的角度理解社会系统优化,更有利于把握社会优化的本质意义。站在社会关系的角度来看,社会系统优化至少应包括以下几个方面:人与人的关系、人与社会的关系、人与自然的关系、社会发展与自然的关系。
人类要生存就会组成各种社会单元去开发自然资源;但随着生产力和经济的发展,人类改造自然、利用自然的工具不断加强,人类又破坏了赖以生存的生态环境;生产力的发展给社会本身也带来新的变化,但由于地域的不同、经济发展的速度不同以及分配的不公又会造成社会的不稳定和不和谐。对社会系统的优化,就是要正确处理人、社会、自然的关系,使这些关系处于和谐的状态。
定义:由人(men)、社会系统、自然系统所组成的大系统为生态系统,即:
生态系统=人+社会系统+自然系统(人men,社会society,自然nature),其状态函数为。邻近状态的状态函数为
,将
状态展成泰勒级数:

对于线性系统和非线性系统,定常系统和时变系统可以采用李雅普诺夫系统稳定性判别准则,即:对于和谐状态,状态函数取极值有;
当:
A)或
该和谐状态是稳定的。
B)或
该和谐状态是稳定与不稳定的临界状态。
C)或
该和谐状态是不稳定的。

定义:
人、社会、自然的关联函数是熵流(entropy),人熵流用表示,社会系统熵流用
。表示,自然系统熵流用
表示。
显然:
说明:
①人、社会、自然三个子系统组成生态系统,三个子系统之间存在熵交换,生态系统之外的系统对其产生的影响应用边界条件加以限制。
②人熵流、社会系统熵流
、自然系统熵流
均是物质m(matter)、能量e(energy),信息i(information)的函数,可以写为:
,
,
,显然物质m、能量e、信息i,是状态函数
的自变量。
③虽然人熵流、社会系统熵流
、自然系统熵流
均是物质m、能量e、信息i的函数,但是它们各自的函数关系并不相同。
对于,如果
是连续函数,则有:

引入判据:
对于和谐状态,状态函数取极值有,当:
A),和谐状态是稳定的。
B),和谐状态是稳定与不稳定的临界状态。
C),和谐状态是不稳定的。
至此,我们可以定量分析:
a、生态系统的三个关联函数的关系。
b、人、社会、自然子系统曲线形态。
c、影响生态系统和谐的元素。
此外,通过对临界点求解,可以对生态系统各参数进行定量研究。对
的求解可等价为求解欧拉方程,也就是求解偏微分方程。但是,偏微分方程的求解通常很困难,瑞利—里兹法(Reyleigh—Ritz)是一种常见的近似求解方法:
设泛函在其可取函数集合E内有极小值,为了得到极小化序列
,选取坐标函数序列
,它是独立的,也是完备的。用这些坐标函数的前n个函数的线性组合

构造一组函数序列。其中为待定系数,或者称之为里兹系数。
将上式带入泛函,并进行必要的微分和积分运算后,可得到n元函数:
确定的方法就是使得n元函数
取极值,即:

由此,我们可以求得一组解,一组解
和一组解
,从而得到极小化序列
。如果令n→∞并且极限存在

则函数即为变分问题的精确解。如果只限于取前面的有限项进行运算,所得的结果就是变分问题的近似解。
从前面的讨论可以看出,泛函的极值问题转化为有限个变量的函数极值问题,可使原来的变分问题易于求解。
在生态系统问题中,函数序列实际上是事先选取的,称为坐标函数,坐标函数的选取直接关系到近似计算的复杂程度。坐标函数除了满足一定的连续条件,以及前面所提到的完备性外,作为最低要求,应满足给定的边界条件。
四、大数据在社会系统优化定量研究中的应用
定量研究(Quantitative research)是指对事物“量”的规定性进行分析和概括的方法,是社会科学领域的一种基本研究范式。与社会科学的定性研究比较,定量研究有着更高的精确性:
首先,定量研究以科学的分析方法和测度指标,通过对社会描述资料进行量化处理和分析,可以揭示出社会现象的数量特征、数量关系、数量差异等,从而实现对社会系统的精确描述;
其次,数学语言、数理逻辑具有清晰、准确、严谨、缜密等特征,定量研究主要借助数学工具,因此能够清晰、简洁、精确地描述出社会系统的存在状态和发展变化过程。定量研究方法通过使用直观的数据、数学公式或模型来分析解决各种复杂问题,具有更强的逻辑性和准确性,因而备受学者的青睐。
社会科学定量研究方法是一种数据密集型科学研究范式(data——intensive science),是对社会系统“量”的方面进行的研究,其研究基础是全面的社会系统描述数据。在研究中,必须搜集足够多的数据化信息,且对这些信息进行量化处理,进而得出量化的结果。这种研究方式在自然科学研究领域较易实现,但将之应用于社会系统的研究则面临很大困难,困难主要表现在对社会系统的定量描述上。
随着互联网、物联网、传感网、社交网络等技术的迅猛发展,诸多领域都产生了超大的数据规模,人类获取的数据量正在呈指数级增长——大约每18个月翻一番——这昭示着大数据时代的来临。
大数据为世界创造了前所未有的可量化的维度,极大地拓宽了人类收集和分析数据的深度、广度以及规模,从而解决了生态系统定量描述的问题,为社会科学定量研究提供了一条可行途径,让我们有机会从庞大的数据库中观察到人类、人类社会与自然的交互方式以及人类自身的复杂行为模式。
大数据泛指采用传统方法无法进行有效处理和分析的大规模、超大规模数据集。
百度百科对大数据的定义是:大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
国际数据中心(IDC)对大数据的定义是:大数据技术描述了一个技术和体系的新时代,被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。
麦肯锡全球研究所(McKinsey Global!Institute)认为:大数据是超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集。
从这些定义中可以看出大数据的4个显著特点,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。
大数据本身是一个抽象的概念,以其字面意思,指的是数据量非常大的数据集,而它与传统数据集又有本质的区别,具体表现在以下几个方面:
第一,数据规模。
传统数据以GB为基本单位,而大数据的基本处理单位通常为TB、PB,且它的数据规模在不断扩充。
第二,数据类型。
传统数据库数据种类单一,以结构化数据为主,易于存储和分析;大数据种类繁多,有结构化数据、半结构化数据、非结构化数据三种形式,非结构化数据占数据总量的95%,难以处理。
第三,数据产生模式。
传统数据库一般是先设计好模式,之后产生数据;大数据的产生通常难以预先确定模式,模式需在数据出现之后才可能被确定,且模式并非一成不变,它会随着数据量的增长而不断演变。
大数据的数据来源广泛,数据产生模式多变,数据类型和应用需求都不尽相同,但是对大数据进行处理的基本流程是一致的。按照系统工程方法,可以将生态系统优化定量分析过程中的大数据处理环节分解为6个连续的阶段,包括数据获取、明确数据价值、数据预处理、数据分析、数据解释及价值输送。
①数据获取
数据获取是指从特定数据生产环境采集原始数据,所采集的原始数据通常有两种形式,即显式数据和隐式数据。
显式数据是直接以数字表达的量,也就是结构化数据,该类数据一般不需要做进一步处理,可直接输入至计算机模型进行分析;
隐式数据包括半结构化数据和非结构化数据,图像和文本信息都属于此类,该类数据难以用传统数据分析工具进行处理。
数据获取是大数据分析的基石,其主要任务是将信息以数字形式聚合以待后续分析处理。
人系统数据获取:
把人作为系统来考量,其涵盖的数据范围非常广泛,包括与个人有关的生理、生活、身份、经济、文化等方面的数据。个人的姓名、年龄、身份、学历、婚姻、家庭等传统数据,可以通过ZF登记的方式获取。应用可穿戴设备能够对人们日常生活、工作、学习过程中所产生的数据进行采集,包括能量消耗、行动路径、地理位置、脉搏、睡眠、体温等,在记录这类显式数据时,也可以同时记录下与此对应的各种活动情境、各种行为状态等隐式数据。
此外,通过对微信、朋友圈的“社交图谱”进行分析,可将个人社交关系数据化;通过对用户在微博上所发布的零散想法进行分析,可实现情绪数据化;通过对淘宝网购物记录的分析,可将人的喜欢偏好数据化…
在大数据的背景下,不仅有关个人的物质、能量输入、输出可被数据化,人的想法、态度、经历、情感、情绪、习惯、人脉关系等信息,也皆可量化。
社会系统数据获取:
社会系统数据指人们在社会生活中产生的各类数据,具体可分为证券类、银行类、保险类、典当类、社保类、通信类、邮政类、交通类、劳务类、卫生类、工商类、税务类数据。社会系统数据主要来源于ZF数据、网络数据和基于传感器产生的物理空间数据。
目前国内约80%的社会数据资源由ZF部门掌控,该类数据通常以统计数据、行业数据等形式出现,其获取方法一般是围绕待解决的社会经济问题确立研究目标,根据研究目标制订调查方案,对研究对象进行抽样调查或全样本调查以获取数据。
获取网络数据主要有系统日志和网络爬虫两种方式。
系统日志由数据源系统生成,其目的是记录系统的活动过程。例如,谷歌通过对每天来自全球超过30亿条的搜索日志进行分析,成功地预测出冬季流感的传播源头、爆发时间、传播路径等信息,其预测结果与官方数据的一致性高达97%。
网络爬虫是目前获取网页数据的主要方式,其基本原理是从某一个网页出发,应用网页遍历算法,自动访问万维网的每一个网页并把它们存储起来。
基于传感器的数据获取是指通过密布在社会生活各层面的传感器,对能够表征社会物质、能量、信息流动的数据进行采集。如智能水表、智能电表、交通流量传感器、建筑传感器、停车计时器等。
自然系统数据获取:
对自然系统数据的获取,其实质是将自然现象及其变化、生物体与自然环境的相互作用等以数据的方式记录下来,通常有两种方式:人工实地观察与传感器自动记录。
对自然系统的人工观测灵活性高,主观能动性强,但由于人类的身体限制,难以满足现代长时间、大规模、高精度的观测需求。
传感器可将声、光、电、动、温等物理变量转化为计算机可读的数字信号。由各类传感器组成的有线或无线网络能够有效、实时、全面地获取观测数据,逐渐成为自然系统数据收集的主要途径,其监测内容可以涵盖水、气象、大气、土壤、植被、噪声、辐射、生物等。
②明确数据价值
传统数据的产生是一个高度控制性的过程,数据采集、数据处理等步骤都是由科研人员预先设计好的,在所采集的数据中提取价值通常具有明确的目标指向。
大数据的形成是一个高度开放的过程,数据的产生、获取都具有一定的盲目性,无论是传感数据、还是与人的活动有关的数据,在形成过程中均不受研究者的刻意选择和控制。这一方面成就了大数据之“大”,另一方面也造成了大数据价值密度较低的属性。在将所获取的大数据输送至具体应用情景之前,需明确数据的价值,去冗取精,将有价值的数据提取出来。
具体到生态系统优化的定量研究中,在繁多的数据中明确有价值的数据,需注意以下数据的发掘:
第一,表征人与自然关系的数据。
人与自然的关系是生态文明中的基本关系,其中突出的是人的生物属性与自然的关系。人是自然的一部分,人是自然界物种长期进化的产物,人的生存与发展依赖于自然,人是自然界的相对主体,自然对人的反作用往往可以制约人类的生存与发展。
第二,表征人与社会关系的数据。
人与社会的关系是生态文明中的纽带关系,人与社会紧密相连,不可分割,社会是人的社会,人生活在社会之中。在现实世界里,既没有离开社会的人,也找不到没有人的社会。
第三,表征社会与自然关系的数据。
社会与自然的关系是生态文明中的重要关系,社会是人与自然统一的纽带;社会是人和属人自然的统一;社会是人与自然之间和人与人之间双重关系的统一体。
对于人熵流Me函数,突出的是人的生物属性与自然的关系,注重区域人口密度;
社会系统熵流Se函数,注重区域发展战略,区域法制环境,区域经济发展水平,生态伦理取向;
自然系统熵流Ne函数,注重周期性影响,资源分布状况。
③数据预处理
如前文所述,大数据有数据规模庞大、数据来源复杂、数据类型繁多等特点,这就决定了所获取的数据往往是杂乱的、有噪音的、非结构化的,难以直接进行数据分析。数据预处理就是对己经采集到的有价值的数据进行适当处理,以发现其中不准确、不合理、不完整的数据,并对这些数据进行去噪、移除或修补,进而提高数据的质量及可信性。
数据预处理主要从数据的完整性、准确性、唯一性、一致性、有效性、适时性等几个方面来对数据进行清洗。具体的方式有:数据归一化处理;消除异常数据;填充缺失数据;平滑噪声数据;过滤重复数据;压缩冗余数据。
④数据分析
数据获取、明确数据价值、数据预处理这三个步骤解决了生态系统定量描述的问题。数据分析是指将生态系统描述数据输入到根据研究目标所建立的
优化模型中去,则可完成对生态系统优化的定量分析。但由于大数据数据规模巨大、数据类型复杂等特质,以往针对传统数据的建模、分析方法难以直接应用于大数据,具体表现在以下两个方面:
首先,传统建模方法无法应对非结构数据。
大数据集通常包含结构化、半结构化、非结构化三类数据,基于大数据的建模、分析也应该同时支持这三类数据。目前,已经产生了E—R模型和XML等成熟的数据分析方法,能够对结构化数据和半结构化数据进行运算分析,而对于非结构化数据,学术界尚没有通用的处理办法。
在生态系统定量研究中所获取的数据一定涵盖多种非结构数据,例如表征人系统的电子健康记录、医生口述记录;表征社会系统的各类文本;表征自然系统的星图、音频、视频,这无疑增加了应用大数据进行系统优化定量研究的难度。在基于大数据的社会系统优化定量研究建模中,要充分注意非结构化数据的识别,设计合理有效的数据模型以确保非结构数据的意义能够被充分挖掘。
其次,传统的建模、分析方法建立在精确化的基础上。
受传统科研范式的影响,研究者通常认为对数据的建模分析必须得出精确化的结论。在大数据的背景下,数据量在急速膨胀,而受限于摩尔定律,数据处理设备的发展速度将难以追赶数据量的指数扩张。这样,基于精确分析的建模方法似乎走到了尽头,急需一种新的,基于非精确计算的方法出现。以大数据为支撑的系统优化研究建模必须在非精确化计算和处理方面取得突破。
⑤数据解释
计算机对传统小规模数据进行分析、做出决策所依赖的是蕴藏在程序中的明确规则。这样,如果计算机出现分析错误,程序员可对程序进行检查,进而找到发生错误的原因。然而,在大数据的背景下,这种追踪会变得愈发困难。
进行大数据分析的计算机系统往往过于复杂,且分析过程是基于庞大的统计计算和海量数据之上而完成的,这种运作方式很难被人所理解。数据分析有变为黑箱的可能,这个黑箱不可解释、不可追踪,公众很难对其完全信任,极端情况下甚至会误导公众。为了避免这类情况的发生,大数据分析过程、分析结果需要被监测并保持透明,采用适当的方法向用户充分解释。
数据解释的方法很多,在电脑终端上直接显示结果和以文本形式输出结果这两种方式最为常用。此外,可视化技术、人机交互技术、数据起源技术等也越来越受到用户的青睐:
可视化技术可将分析结果形象地展示给用户,且图形化的方式比文字更容易被接受和理解;
人机交互技术在一定程度上让用户了解和参与具体的分析过程,使用户不仅能得到分析结果,同时也理解结果的由来;
数据起源技术可以追溯数据分析的整个过程,让用户充分理解结果。这类新技术是在大数据背景下应对海量数据分析结果的更好选择。
⑥价值输送
基于大数据的社会系统定量分析,其价值在于辅助ZF决策。当今世界,人类的需求日益多样化、经济社会问题日益复杂、环境日趋多变,自然灾害、事故灾害、公共突发事件的危害性与风险性日益加剧,给ZF主导的公共管理和公共决策带来了巨大挑战。传统的依靠决策者记忆、直觉判断和主观经验的决策模式往往容易忽视大量的信息,无法有效应对现代社会的复杂性和风险性。
以最小作用量原理作为理论基础,通过对生态系统海量数据进行分析,提出系统优化建议,为ZF决策提供支撑,提高决策科学化水平,这正是大数据分析的价值所在。正如耶鲁大学教授Esty所言:“‘数据驱动决策’,将使ZF更高效、开放和负责,更多地在事实基础上做出判断,而不是主观判断或者受利益集团干扰进行决策。”