【中国青年报】大数据研究,不能“忽悠”
| 来源:【字号:大 中 小】
几个盲人分别摸到了大象的鼻子、耳朵、腿、尾巴和躯体,这张“瞎子摸象”的照片,在“2013中国计算机大会”上出现多次,好几位报告人和讲者,都不约而同地选了这张照片来表达对大数据目前研究进展的态度。
作为国内计算领域规格最高、规模最大的学术会议,“2012中国计算机大会”上,“大数据”是出现频率最高的主题词,几乎每个主讲者,每场论坛,都涉及这几个字。同时,中国计算机学会也在大会举行期间,正式成立了专家委员会,中国工程院院士李国杰担任主任。一年来,“大数据”3个字持续升温,社会对于大数据的关注也从最初的必要性、重要性转向如何获得数据,如何进行处理,如何进行利用。
“大数据”面临大挑战
计算机大会专门组织的“大数据主题论坛”可谓高规格阵容,主讲者有中国工程院院士、中科院计算机所研究员李国杰,中国工程院院士东北大学教授柴天佑,中国科学院院士、北京大学教授鄂维南;中国科学院院士、上海交通大学副校长梅宏等。
“IT技术广泛的应用使我们获得了巨大数据,从这些数据当中我们可以得到很多东西,也使计算机系统、软件技术、生产生活,包括数学基础研究面临新的挑战和机遇。”论坛主持人、国防科技大学王怀民教授说。
梅宏院士认为信息界当前的几个最热点的问题,大数据、云计算、移动互联网本质上都是互联网计算及其延伸产生的效果,包括更快的网络带宽,更广大的网络接入,更强的计算能力,更小的计算设备和更低的存储成本。
不过,他同时也指出,大数据不仅带来对软件技术、编程语言的挑战,同时也让人类社会面临着能耗挑战,因为目前全球范围内的数据中心服务器和散热系统每年大概需要消耗30亿瓦的电能,而这相当于20座核电站的发电量。一个大型数据中心的能耗非常巨大,甚至比一座中型美国城市的耗电量还要高。
“历史上设计计算机系统的主要目标是充分发挥CPU的计算性能,较少关心如何满足持续的数据存取要求。现在存储问题尚未解决,又遇上大数据应用,计算机系统的负载发生了本质性变化,虽然CPU进展很快,每年50%~60%的增长,但负载增加更大,以前数据是围着CPU转的,现在变过来了,是围绕数据转。”李国杰院士认为,计算机系统结构需要革命性的重构,重点是数据如何“搬运”,要由过去的“大象搬木头”转变为“蚂蚁搬大米”。
李国杰院士透露,中科院网络数据科学与技术重点实验室的“天玑网络大数据平台”,已经完成了面向网络大数据、金融大数据处理的一体机原型系统,并已经在淘宝、腾讯等相关企业和大数据情报处理领域进行了试用。
中国工程院院士柴天佑则描述了工业大数据的特殊:数据量大、类型多、变化速度快,复杂工业系统中许多机理不清,难以用数学模型来描述其特征,大数据的应用技术为研究复杂工业系统开辟了新途径。
大数据研究和应用不能“忽悠”
“大数据是什么呢?每个人都有每个人的理解,我自己也是带着问题来的。”2013年中国计算机学会海外杰出贡献奖获得者、美国特拉华大学电子与计算机工程终身教授高光荣在做大会报告时,展示了“瞎子摸象”的照片。这位从事计算机系统结构研究的国际知名学者介绍了自己近些年从事数据研究的成果。不过,他认为“大数据”的提法过热,明显有炒作的味道,急于求成,“做研究不要贪快,有些研究不会立竿见影,一项研究工作需要很多年。无论是美国还是中国,我们在大数据研究上,都才刚刚开始。”他用了一个新学会的词:不能“忽悠”。
不过,在大数据主题论坛上,高光荣教授仍未得到答案。
当李国杰院士从系统结构的角度,柴天佑院士从工业应用,鄂维南院士是从数学的角度,梅宏院士从软件的角度进行一一阐述之后,一名学生提出了一个问题:“能不能请各位老师用一句话说说大数据的本质是什么?大数据带来什么样的变化?”
一句话说清一个问题似乎让主讲者都有些为难。
柴天佑院士认为,从用大数据进行研究的角度来谈,超出现有的理论方法技术、工具,能处理一个数据群就叫大数据。
而李国杰院士认为,大数据被“大”字给忽悠了,它更多的是多样化、变化快,不仅有快数据,还有真伪两方面的数据。大数据是一个处理数据的方法,不是数据本身的规模。
梅宏直接表示很难回答:“大数据这个词不是技术生产科学意义比较明确的定义,它给人的联想太多的空间了。用一句话我说不出来。”
之前,他提到大数据将不会是一个可完全“解决”的问题,只能是逐步“逼近”、缓解的技术,目前尚不存在有效的大数据技术。
针对研究人员如何获数据的问题,李国杰院士回答,政府应该是首要的公众数据来源者,政府掌握大量的各类数据,但是现在数据公开还没有做好。此外,研究人员还可以向企业要数据,通过协议相互交换,搞技术的、做科学研究的共同交流才能出成果。
大数据研究人员短缺
计算机大会的特邀讲者,来自美国北卡来罗纳州立大学分校史德利 阿霍尔特(Stahley.Ahalt)教授是创新计算研究所的负责人,他认为,大数据已经存在,需要新的工具来使数据消费者进行大规模应用。
在他看来,数据的产生者包括大学、政府、医疗保健机构、工业界等,而数据使用者是科学家、公民、政府、医务人员、商业界。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。所以需要数据科学,对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易;更快的处理器,更多和更廉价的存储容量”
他介绍了大数据在美国社会管理、风暴潮预测以及生物基因诊断方面的成功应用。一家名为美国快捷药方的公司宣称已有10亿个药方数据用于分析,使病人的邮购处方更为合理经济。他们通过预测模型,找到了400个影响因素,来发现因病人不遵循用药规定带来的风险,而这一项每年带来的损失高达3170亿美元。UPS公司通过分析从成千上万台送货车上传感器传回的数据,减少530万英里行程,减少发动机的闲置达1000万分钟,节省65万加伦的燃料,减少二氧化碳排放量达6500公吨。
阿霍尔特教授提供了一系列数字,大数据的应用可以使美国每年节省医疗节省费用达到3000亿美元,这相当于西班牙全年的医疗保健花费;欧洲公共管理部门每年可节省2500亿欧元;节省1%的汽油油耗,15年可以节省680亿美元;采用数据信息决策的公司,可使生产率提升5%~6%。
而因为大数据开发及使用,也可以创造无数新的工作机会。全球范围内,到2015年,大数据和分析工作机会有望超过400万个。
每个大数据的工作能够产生3个相关的工作。对于美国而言,到2015年,将有190万新的大数据工作机会,但将由于人才短缺,仅有1/3的岗位能招到人。2020年,美国针对数据相关的管理员和软件开发者的需求预计增长约32%。
在2012年的一项调查中,78%的被调查者认为确实存在大数据方面的人才短缺。那么大数据科学家要具备什么样的IT技能呢?阿霍尔特表示,数据科学家要对计算机科学背景有全面了解,包括对应用软件、建模、数据、分析等,要有商业头脑,以及对数据提炼融合的能力。数据科学家还“必须能够获取数据集,对它们进行数学建模,以及懂得建立模型的所需要的数学理论。他们必须能发现并阐明数据揭示的问题,即从数据中发现合适的问题。”
(原载于《中国青年报》 2013-11-07 12版)