论文选登
大数据解析技术在大气环境监测中的应用
发布时间:2018-5-8  作者:袁大勇  来源:《中国高新科技》杂志  浏览量:1116
摘要:在大数据时代背景下,信息数据呈爆炸式增长,也因此推动着信息计算、处理技术的发展,如大数据解析技术被用于多个领域工作中。文章旨在探讨大数据解析技术在大气环境监测中的应用要点,并从收集与处理基础数据、特征量选取、数据工具运用等方面分析应用过程中的注意事项。 关键词:大气环境监测;大数据解析技术;时间分类器;空间分类器

作为全社会当前关注的主要热点问题,大气环境保护涉及的信息内容较广,一般要求环境监察部门做大量数据的收集与分析工作,如气象条件、人群活动情况、大气细颗粒污染物浓度数据以及交通状况等。这些数据本身属于不同类型,有一定的复杂关系,在实际处理与分析中要求借助大数据解析技术分析。基于此,本文对大气环境监测中大数据解析技术的应用进行研究具有十分重要的意义。

1 我国大气环境监测现状

近年来,我国对大气环境保护给予高度重视,特别是日益严重的PM2.5污染影响了城市整体环境以及大众身体健康。尽管有一部分城市考虑建设大气自动监测站,但由于耗资较大,除建设投入成本外,也涉及后续人工成本、运行维护成本等,大部分城市很难承担。针对这一问题,基于充分发挥大数据解析技术优势的考虑,通过做局地PM2.5浓度计算,用以反映环境状况,为大气环境监测与问题解决提供参考。

2 大数据解析技术在大气环境监测中的应用要点

大数据解析技术涵盖的技术内容包括数据采集、参数识别、系统模拟、神经网络分析、系统智能自学以及统计计算等,通过巨量信息分析方法用于环境问题的研究。本次研究主要从大气环境监测角度出发,对城市局地PM2.5浓度进行计算,分析大数据解析技术在该过程中的应用。整个应用流程表现在研究问题的确定、特征量与数据类的选择、数据处理分类、时间类与空间类数据构建、计算。具体技术应用要点如下:

2.1 大数据解析技术应用目标与内容

大数据解析技术一般可将关系复杂的数据类进行可靠处理,侧重于以数据分析原理为基础,灵活处理不同问题类型。首先,应确定大数据解析技术的应用目标与内容。本次研究中,应用目标设定在城市局部地区大气环境监测上,具体内容为区域PM2.5浓度的计算。对于所选择的目标即城市区域,采用单元网格划分形式,利用G(g1g2…,gn)描述各单元网格,其中g用于1km²范围描述,同时取C(cg1cg2…,cgn)描述g区域内PM2.5浓度情况。研究中取J(Ci)表示大数据解析目标函数,该函数下,Ci可细化为两类,其一为有大气自动监测站设置,已知PM2.5浓度,以C1描述;其二为无监测站且浓度未知,由C2描述,在此基础上做数据解析。

2.2 技术应用下特征量与数据类确定

由于C2未设置监测站,且PM2.5浓度未知,为达到数据解析目的,要求做特征量、数据类的确定。其中在数据类方面,选择过程中考虑以“可能”“需要”作为原则,其中“可能”原则表示在有数据的情况下进行选择,而“需要”强调分析各数据类,选择中应与J(Ci)函数有关。从环境领域角度出发,其中的数据类关系一般以非线性、多样性关系为主,这种关系表现为大数据解析带来一定难度。为使PM2.5浓度明确,需引入环境科学相关知识,充分利用现有数据条件,做数据类的确定,具体分为:(1)气象条件数据;(2)PM2.5浓度历史数据;(3)人群活动情况;(4)交通状况;(5)网格范围内空气污染相关数据,如公园、车站、工厂数据;(6)网格范围内道路相关数据;(7)各网格具体坐标位置。

在确定上述数据类的基础上,需做特征量的选择。其中PM2.5浓度数据,结合历史数据取浓度平均值,该值为特征量;而气象条件方面的数据,特征量内容包括风速、气压、气温与相对湿度;人群活动数据类,特征量选择网格内人数;交通状况数据类,对应特征量以平均车速、车辆数等为主;网格道路状况数据类,特征量选择交叉路口数据、一般公路长度、高速公路长度等;空气污染相关数据类,需取具体的公园、车站、工厂等数量,该数量作为特征量。这些特征量属性不同,部分特征量在时间变化下出现一定变化,应用大数据解析技术中,考虑对特征量具体分类,其中一类称之为Spatial Data Set,是空间相关数据集,判断其是否影响目标函数中,通常选择空间分类器(SC),做函数预算,可获取最终结果。而另外一类数据集为时间变化下发生变化的数据集,称其为Temporal Data Set,取时间分类器TC做目标函数计算。对于研究中所选择的数据类,如人群活动、交通状况、气象条件、PM2.5浓度数据均随时间发生变化,所以纳入时间相关数据集中,而其余空气污染单位数据、网格道路状况以及网格坐标数据需纳入空间数据集中。因此,大数据解析技术应用中应考虑如何进行SC、TC的构建。

2.3 时间分类器的选择

运用时间分类器是解决随时间变化下特征量的关键。在交通状况数据类中,特征量主要包括平均车速、车辆总数;在气象条件中,风速、气压与气温均为特征量;在人群流动方面,网格范围内人员进出数量为特征量。假定对某网格点与某特征量分别以i、j表示,以xij表示该类特征量,t表示时刻,有X={x1x2…,xn},x1={xi1xi2…,xijt}。再如大气污染物浓度方面,数据随时间变化,所以将其作为特征量,利用yi表示,某网格点以i表示,有Y={y1y2…,yn},表示某一时刻下需预测的污染物浓度值。若特征量X易被确定,此时yi与其相邻yi-1有关,以i-j表示变量相邻,P为概率,此时有P=(Yi/X,Yji≠j)。在此基础上,如特征量X序列条件明确,若y值出现,视为正态分布函数,以exp(u·s(yixii))表示状态特征函数,状态向i转移过程中,函数exp(λ·t(yi-1))。这两个函数中的u与λ均为待估参数。此时便可进行求解。实际求解中,应注意大数据解析技术下对线性函数关系更能取得显著效果,所以需做条件概率函数的适当转变,这样能够求解u与λ值。从该流程可发现,整个构建TC过程是解析条件随机场的过程,侧重于使最终的函数符合解析要求,得出最终的结果。另外,应用大数据解析技术,对于特征值应做好解析与推演工作,保证构建后的SC与TC为最佳,这样在做大气污染物浓度计算中更能起到明显作用。

2.4 空间分类器选择

空间分类器也叫做SC,其涉及的特征量不会在时间变化下发生改变,相关的数据结果均处于静态不变状态。由于这些特征量在影响目标函数方面,主要表现为多节点传递,呈线性传递方式,这在一定程度上说明SC在特征上被赋予静态神经网络结构特点。关于其中的神经网络,在大多研究中均将其作为一种模拟复杂系统,运用于大数据解析过程中也被视作重要工具。本次研究中,对于网格PM2.5浓度进行预测,考虑配合人造神经网络ANN、输入部分IG所构建的SC分类器。其中IG运用的作用表现在满足ANN输入自值构建要求,利用对于监测站网格,随其取两个坐标设定l1l2,其中有污染浓度值通过c1c2表示,以描述特征量。对此,通过数据表达式对整个IG数据生成流程分析,由P表示特征量(皮尔逊)距离,做ANN输入数据构建,有=Pearson_Cor();=Pearson_Cor()。当ANN获取数据后,会由神经网络节点进行传递,影响目标值。

需注意,在目前的大气环境监测中,借助神经网络进行空间分类器SC的构造,为使其能够真正满足大气污染物浓度计算要求,需注意神经网络应用问题。例如,在整个神经网络中,非线性函数变换、节点神经感知偏移、节点权重等问题均是需解决的主要内容。对此情况,可考虑引入反演法(也叫做BP法),这种方法侧重于对实测值、估算值在各输入权重中分配具体值,这样I输出特征量权重可被分配。在此基础上通过推演,在各权重上分配残差(实测与估计偏差),便能保证各权重分配的合理性。在SC的具体运用中,应通过反复模拟训练,保证将这种残差控制到最小,使SC模型更加完善,运用于特征量的分析更能发挥重要作用。

3 大数据解析技术应用于大气环境监测的实施要点

大数据解析技术应用于大气环境监测的实施要点在于将有关联性的数据类进行筛选,在此基础上做数据类特征量的选择,然后通过数学分析方法解析运算特征量,分析各特征量关系,最后将研究问题解决。由于大数据解析技术能够为非线性因素、多元关系的解决提供有效方法,因而被广泛应用于各行业领域中。本次研究选择大气环境监测领域为对象,尽管通过具体的计算可获取最终监测结果,但实际应用中仍有较多注意事项。具体表现为:

1)基础数据收集与处理。由于基础数据较多,存在无法直接准确获取数据的情况,部分特征量在获取中需要借助统计学方法实现。

2)特征量选取。无论研究哪类问题,在获取数据与具体数据类的基础上,均要求做好特征量选取工作,一般要求做到合理筛选特征量,使最终研究准确率提高。

3)数据工具运用。对于大部分特征量,解析中要求有具体的数据工具应用,甚至有些问题需要利用多种途径与处理方法,此时需有具体的数据工具。

除此之外,大数据解析技术本身涉及多种技术与运算方法,在实际应用中要求大气环境监测部门配置相关人员,确保在操作中能够对数据收集、处理与分析做到游刃有余。

4 结语

环境问题当前社会大众关注的焦点。值得注意的是,环境问题分析中涉及多种复杂因素,如区域、流域、城市、农村,且需考虑到不同类型的环境污染情况,包括固体废弃物污染、土壤污染、水体污染以及大气污染等,这些数据之间均有一定的复杂关系,为实际监测工作带来极大的难题。在应用大数据解析技术时,要求明确其实施要点与具体流程,主要体现在研究问题与内容的确定、数据类与特征量的确定、空间与分类器的设计等方面。为保证技术应用效果,应做好数据收集、特征量选取以及数据工具的合理运用等,以满足大气环境监测要求。

参考文献

[1]袁雪,姜杰.研究大气环境监测中大数据解析技术的应用[J].低碳世界,2017,(28).

[2]刘文清,陈臻懿,刘建国,等.我国大气环境立体监测技术及应用[J].科学通报,2016,61(30).

[3]李蔚,胡昊,徐富春,等.大数据解析技术在大气环境监测中的应用研究[J].中国环境监测,2015,31(3).

[4]卢炬,李玲,周瑞明,等.大气环境PM2.5研究进展[J].中华建设,2015,(3).


收稿日期:2018-03-19

作者简介:袁大勇(1975-),男,河南南阳人,中国疾病预防控制中心环境与健康相关产品安全所助理工程师,实习研究员,研究方向:环境卫生学、空气污染与大数据分析相结合。

 转载本站文稿,务必标注出处。

Copyright 2017 中国高新科技网 All rights reserved.

 主办单位:中国科技产业化促进会  版权所有:《中国高新科技》期刊社

 不良信息或版权问题举报电话:010-8361 1115 纠错邮箱:zggxzz@126.com

京ICP备08104264号-2