论文选登
大数据环境下的统计调查研究
发布时间:2018-4-9  作者:苏 杭  来源:《中国高新科技》杂志  浏览量:1439
摘要:文章以统计调查为核心,明确大数据统计的目的,分析大数据和统计调查之间的异同性,提出大数据环境下的统计调查,提高统计调查的有效性和针对性,并为相关研究人员提供一定的借鉴和帮助。 关键词:大数据;统计调查;样本

大数据和互联网技术的发展,为统计学的变革和创新提供了新的技术支持和发展环境,探索统计科学也变得十分关键。大数据依托于数据主体,而统计是一种数据科学,这就说明大数据在统计学发展中占有主导地位,但如今很多人还没有意识到大数据在统计调查中的重要性。对此,在大数据环境下,统计学从业人员要转变思维,正确意识到大数据和统计调查之间的关系,学会利用大数据来开展统计调查工作,提高统计调查的科学性,将大数据和数学统计有效融合,进而促进统计学的可持续健康发展。在这样的环境背景下,探究大数据环境下的统计调查研究具有非常重要的现实意义。

1 大数据统计目的

从狭义角度上看,大数据属于大样本与高维变量的数据集合体,在样本大问题上,统计学主要选择抽样调查的方式降低样本数量,以达到所需精度;而在维数高问题上,则必须对变量进行选择、压缩、分解等方式,以达到统计要求,但却存在认知维度小样本的问题。从广义上看,大数据横跨多个学科领域,属于多源混合型数据,将自然科学、人文社会、通信网络以及商业娱乐等领域数据集合在一起,形成一片数据海洋,使得各个学科数据可以融合在仪器,模糊各个学科的边界。同时,大数据囊括多种数据类型,主要涉及文本语言、网络图形、录像图像等类型,大数据统计具备数据量大、类型多、覆盖范围广的特点。

一般而言,传统统计方式适用性不足,只能应用在单个计算机储存数据分析研究中,而大数据环境下的统计方式包含以下内容:(1)数据流环境,数据流通速度较快,流通量也很大,现有储存设备与计算能力无法应对这一巨大的数据流;(2)磁盘储存环境,大量数据不满足内存,而要求硬盘储存;(3)分布储存环境,将数据流分布到多个计算储存中,消化大量数据;(4)多线条环境,大量数据不满足单一计算机,需要多个处理器共同工作,共享内存。从这一层面上看,大数据统计的目标是将数据知识化,明确数据形成规律,并对其形成进行预测,制定相关政策,将信息转化为价值知识,这也是一个长期的过程。总之,在大数据环境下,人们可以借助数据观察来分析自然现象、经济现象以及社会现象,掌握疫病疫情、社会动态以及科学动态,为统计学的发展提供新的方向和途径。

2 数据和统计学的异同点

2.1 大数据和统计学的区别

从形象上看,大数据和统计学的区别类似于一部电影和一幅画,主要体现在以下几方面:

1)信息规模。大数据以分析事物相关联数据为主,不依靠少量数据样本;而统计学是利用少量数据证明重大发现。在统计调查工作中,受工作习惯的影响,统计调查相关制度与激励机制过多倾向于少量数据的使用,但在如今信息时代中,大规模数据的分析和小规模数据分析最终结果的差异性较大,在一些方面,小规模数据无法比拟,这也造成了传统统计方式的局限性。

2)动静标准。在大数据环境下,数据不再是静止状态,人们接受和认定数据的变化和复杂,也不苛求数据精确性;而减少错误是统计的基本要求,统计数据必须精准而方向单一,数据完成分析目标后,价值不复存在。类似于飞机降落后,票价数据失去价值一样,大数据环境下,这类数据依然有价值,可以通过数以万计或是几十万的票价信息,推断当时票价的合理性。

3)数据收集形式。统计数据分析以随机采样为核心,范围局限性大,没有表示出准确细节信息,但在大数据时代下,通过海量数据的收集,不存在事前预设数据,将不精确发挥极致,这种数据混乱已然成为一种标准的途径,而不是极力避免。

4)哲学关系。在大数据环境下,统计人员的思想得到新的开发和转变,不再苛求因果关系的研究,而是将目光转为事物相关关系上。

2.2 大数据和统计学的关联性

大数据和统计学属于直系血亲关系,统计学的基础成就了大数据的存在,二者有很大的关联性。

2.2.1 社会+数据

在大数据环境下,可以利用数据分析实现知识获取、商业机会以及社会服务等方面的能力,打破传统学术精英圈子局限,并将其蔓延至普通机构、政府部门或者是企业单位,由大数据和大社会组建为如今的大数据时代。而统计学主要是为了辅助政治工作进行数据收集,在系列研究分析后,达到预设目标的科学手段。获得数据分析结果,可以直接反映出客观事实,并分析内在联系,验证假设愿和事物客观本质的关联,借助现实统计实现人们主观目的,不断完善主观愿望和事物客观本质的衔接性,进而达到统计目标。

2.2.2 哲学+数学

从本质上看,统计学是哲学思想和数学思想融合后的结果,验证了定性方法和定量方法的融合,作为一种量化而表现不确定性现象的科学,统计学内包含着大量的哲学思想,并为为统计学提供定性思维研究理论,追寻事物本质,通过哲学思想开展研究的定量思维。在这一环境下,大数据的出现,利用数学基础与哲学研究等方式融入到实际应用中。

2.2.3 数据+方法

统计学以定量方法为主,无法单独存在,必将以定性方法为基础使用定量方法,实现统计数据和统计方法的相互促进和融合;而大数据包容了数据不精确,并以全数据模式为主,提高海量数据的利用价值,不仅可以发现信息,还可以揭露出数据信息内容间的关系。

3 大数据环境下的统计调查途径

3.1 做好数据预处理

在大数据环境下,统计调查工作要做好数据预处理工作,主要涉及到数据清理、数据填补以及数据纠正,通过随机抽样数据进行非标准数据源的纠正,统计机构数据都是在严格抽样设计程序下形成的,具备代表性强、误差小的特点,但数据获取时间长,调查项目均采取代表性数据,包含数据类别和覆盖范围小。互联网数据收集时间短、数量大、类别多,但无法避免数据偏倚性。对此,在进行统计调查中,要将大数据和数学统计有效结合在一起,相辅相成,取长补短,以统计机构数据为标准框架进行互联网数据的纠正,而将互联网数据当成统计机构数据的补充资源,实现统计机构数据的实时更新,实现大数据和数字统计的融合,提高统计调查的综合质量水平。除此之外,借助多源数据重叠关系,构建多源数据库,打破传统单一数据的局限性,实现统计调查工作的最终目标。

3.2 完善统计抽样调查

在大数据环境下,抽样方法要进行创新和变革,样本并非是全部“数据”,要适当选择,结合大数据流环境特点,探索在数据流中选择符合统计要求与高精度的样本,这就需要相关统计人员要加大研究力度,根据大数据环境的契机,探索出适应性和连贯性强的抽样方法,形成动态化抽样体系。在实际抽样调查中,根据现有样本调整调查项目与抽样对象,将频繁出现的数据或是感兴趣的数据纳入到样本数据库中,并根据统计调查需要,构建数据流缓冲区,对数据频数和变动进行记录,动态化调整已经备选入库的样本,进而提高样本的代表性和精确性,实现统计抽样调查的最终目标。针对一些罕见案例,若单纯应用随机抽样方式,会选到极少案例或是非案例性数据,这就需要统计人员应用大数据案例抽样法,通过事件本身进行抽样调查,设计信号强度限值,抽样数据要高于限值范围,再利用其他抽样技术进行辅助调查,进而提高抽样调查的准确性,实现调查目标。

3.3 数据分析与整合

针对当前数据高维问题,在大数据环境下,统计人员要以降维、分解为主要方式,探索大数据压缩方式,对压缩数据进行传输、运算、操作,统计人员可以将常规统计方法和大数据分析方法相融合,根据统计需求进行高维矩阵、变量选择、数据流算法等方式的应用,不需要保存数据,只需进行数据扫描,通过计算机内存与外存,解决传统数据传送问题,实现数据分布和计算。特别是在无统计信息损失的要求下,要逐一分解大数据集,在计算机环境中保证被分解数据的独立并行和分布推断,各个计算机的数据计算结果为交互性,最终汇总,形成全局统计结果。在当前大数据环境下,统计调查中的数据集并不是标识个体关键词,使得传统关系数据库关联方式无法使用在统计中,必须通过各个数据库的重叠项目进行整合,以变量间条件进行不同变量集合数据的整合 ,形成一个完整而统一的大数据库,利用局部数据推断统计调查结果,进而达到统计调查的最终目标。例如,在分布式分析模型中,收集用户特定指标下的频次和总额,归类汇总,突出单个用户对产品依赖程度,并分析用户在各个区域内不同时段下所购买的不同产品数量与频次,使得运营人员可以掌握客户状态与运转情况,并对用户划分订单金额1000元以下、10002000元、2000元以上等区间,购买次数划分5次以下、510次、10次以上等,掌握用户分布情况。

3.4 构建网络图模型

在进行统计调查中,构建网络图模型主要以图结构进行高维变量间关系的描述,其中主要涉及到无向图概率模型、贝叶斯网络、因果网络等,这是高维数据、多源数据的有效分析处理工具,当前市面上有MSBNBN ToolboxCoCoTetrad等网络图模型软件,丰富了统计调查方法体系。在实际工作中,统计人员可以将网络图模型应用在大数据集分解中,对多源数据库进行实时分析和处理,通过局部数据进行数学计算,引入隐性变量关联性,通过关联网络图,实现对数据关联关系的有效分析和预测。首先,统计人员要通过各个数据库进行局部网络结构的学习和研究,以局部结构开展相互交流与配合,最终形成全局化网络结构。但是一旦因果关系无法结合数据分析结果而确定时,统计人员所提出的主动学习方式要进行转型,以主要变量为重点开展干预试验,明确全局化网络结构中的因果关系,有利于后续统计工作的顺利开展。对此,针对数据关联的因果关系,要制定干预政策,以“寻根问题+顺藤摸瓜”的方式进行分析和研究。在这种方式应用中,统计人员不需要构建基于高维变量的因果网络,而是以目标结点为出发点,由局部变量进行选择,达到局部网络结构学习、确定区分目标结点的最终结果,进而提高统计调查的综合质量水平。

4 结语

综上所述,在大数据环境下,统计调查工作要做出创新和改变,以适应当前时代环境对统计调查工作的要求。统计人员要正确认识大数据和统计学的异同点,做好数据预处理,完善统计抽样调查,数据分析与整合,构建网络图模型,在大数据的支持下,形成完善的统计调查体系,提高统计调查工作的综合质量水平。

参考文献

[1]孟芷汀大数据时代下的统计学[N]科学导报,2015-06-19B02.

[2]大数据时代统计学的重构与创新——首届“大数据与应用统计国际会议”述评[J].统计研究,2015322.

[3]崔路云基于大数据时代背景对统计学教育的几点思考[D].北京:首都经济贸易大学,2014.

[4]黄秋婷基于统计学的个性化推荐算法探究[D].厦门:厦门大学,2014.

[5]耿直大数据时代统计学面临的机遇与挑战[J].统计研究,2014311.

[6]邱东大数据时代对统计学的挑战[J].统计研究,2014311.

[7]薛红文大数据与统计学[N]现代物流报,2016-09-16014.

 

(作者系山东大学(威海)数学与统计学院学生)

 

 

 转载本站文稿,务必标注出处。

Copyright 2017 中国高新科技网 All rights reserved.

 主办单位:中国科技产业化促进会  版权所有:《中国高新科技》期刊社

 不良信息或版权问题举报电话:010-8361 1115 纠错邮箱:zggxzz@126.com

京ICP备08104264号-2