谢志惠:统计人要争当大数据时代的弄潮儿
大数据,是一个具有数据体量巨大、数据类型繁多、商业价值高、数据更新迅速、获取方式灵活等多重特点的新概念,成为继云计算、物联网之后,全球信息技术领域的又一大热点。在大数据方兴未艾之时,维克托·迈尔-舍恩伯格教授的《大数据时代》应运而生,厘清了大数据的基本概念和特点。
最近终于得以阅读了该书,有种相见恨晚的感觉。徜徉在书中,感受着大数据统计带来的乐趣与欢愉的同时,更多的是思考。对于统计学专业毕业的我而言,“大数据”,并不是一个新鲜的词汇,在《数据挖掘》、《多元统计分析》、《R语言》等课程的学习中,已经了解了很多处理大数据的方法和程序,甚至还依葫芦画瓢在第十届全国研究生数学建模竞赛中小试牛刀并获奖。然而,当试图通过这本书更深的了解大数据时,发现自己在大数据面前是多么渺小,脑海中根深蒂固的专业知识突然变得不堪一击。
“大数据时代,抽样统计分析就像在汽车时代骑马。”众所周知,抽样统计分析在统计学中占有非常重要的地位,统计学前辈们基于抽样方法建立了抽样技术、参数估计、假设检验等一整套完备的理论和方法,目的就是使用尽可能少的数据来证实尽可能重大的发现。在数据记录、存储和分析工具较差的时期,抽样分析是进行统计分析最方便有效、使用最为广泛的方法。在实际分析中,经常通过尽可能多的搜集数据来避免缺陷。然而,在大数据时代,收集全面而完整的数据变得容易起来,分析结果也更加准确。谷歌流感趋势预测通过对整个美国几十亿条互联网检索记录的分析,不仅能够推测一个州或者整个国家的流感情况,还能够准确推测出某个特定城市的状况,这是抽样统计分析方法很难做到的。
在大数据时代,不仅是抽样统计分析方法的地位面临威胁,连一贯追求精准数据的研究也变得不那么严格,因为某个数据点的精确性对大数据整体的影响微乎其微,大数据更强调数据的完整性和混杂性。大数据时代的滚滚浪潮不断冲击着我们传统的统计理念,对当前政府统计管理体制、机构设置和数据价值等形成了严峻挑战,如何做好大数据时代背景下的统计工作,是我们统计人应当思考和研究的重大命题。
马建堂局长曾在国家统计局与联合国统计司联合召开的“官方统计现代化:应对生产力和新数据挑战”国际研讨会上慷慨致辞:“大数据潮流浩浩汤汤,逆之者败,顺之者昌。中国统计系统要做拥抱大数据的弄潮儿。”我们统计人正以更加开放的姿态拥抱着大数据。
科学顶层设计,数据采集智能化。近几年来,国家统计局致力于四大工程建设,建立了真实完整、及时更新的基本单位名录库,建立了统一规范的企业一套表制度,开发了方便适用的数据采集处理软件,建立了安全高效的联网直报系统。企业直接登录直报平台报数,促使数据采集过程高效、可控,为开展大数据抓取、分析和应用奠定了基础。
深化强强合作,数据分析专业化。目前,国家统计局已经组织、参加国际国内多次研讨,开展与阿里巴巴等10多家电子网络交易企业建立大数据应用战略合作,与厦门大学开展大数据标准与统计应用研究,与厦门赛凡信息科技合作开发研究等等。政府部门间、政府与企业间、政府与研究机构间强强联手,发挥优势,形成了大数据资源合作挖掘、分析与共享机制。
创新方式方法,数据发布透明化。近几年来,国家统计局创新方式方法,数据发布更加及时、发布内容更加丰富、发布形式和渠道也更加多样。除定期召开新闻发布会,按期发布统计公报,按时公布月度、季度、年度数据外,还精心打造了一系列拳头产品——官方统计即时资讯平台“中国统计”、被誉为便携式小型数据库的“数据中国”、及时快速发布统计信息的“统计微讯”、数据丰富且可满足不同查询需求的新版“国家数据库”,以及拥有近200万粉丝的“三经普微博”等等,不断满足社会公众对数据的需求层次和质量,不断提高数据的公开透明程度。
“长风破浪会有时,直挂云帆济沧海”。大数据时代已经来临,我们统计人要全面深化统计方法制度改革,把握好大数据发展机遇,立足本职工作,在大数据时代的洪流中争当弄潮儿和排头兵,为中国大数据研究和利用做出力所能及的贡献。
[供稿:郴州市统计局 谢志惠]
[责编:徐林]