【中国科学报】大数据,应用领域未来可期
| 来源:中国科学报 沈春蕾 丁宁宁【字号:大 中 小】
第十四届高交会,先进院须成忠教授与北斗卫星之父孙家栋院士及团队合影留念。
深圳市4万台公共运营车辆实时全球定位系统(GPS)数据,每天500万次交通刷卡数据,联通300万号通话位置数据,深圳移动800万号动态位置数据,20万交通监测视频数据……这些数据,每天达到PB(Petabyte,千万亿字节)量级。
深圳市交通运输委员会期望对数据进行分析,以达到治理交通拥堵目的;公安部门希望获得犯罪线索,预防恶性事件发生;深圳市民希望出行更快捷、更方便;电商企业希望提高配送效率,降低配送成本;物流公司希望降低空驶里程,提高物流效益。
“我们能否支持海量异构数据融合?如何进一步快速揭示并利用数据之间的复杂关系?智能终端作为数据的主要来源和表达载体,将何去何从?”中科院深圳先进院先进计算与数字工程研究所(以下简称“数字所”)常务副所长冯圣中告诉记者,“这些挑战,蕴涵着技术创新与产业创新的巨大机遇。”
呈现并不那么简单
中国科学院深圳先进技术研究院(以下简称“先进院”)院长樊建平总结先进院的大数据架构从外到内分四块,分别是可视化引擎、数据计算引擎、数据操作引擎和数据节能引擎。
“大数据技术的意义不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的结构化的信息。”先进院多媒体集成技术研究中心主任汤晓鸥告诉记者。
“作为最外层的可视化模块,不仅要让人‘看到’数据,更重要的是展示数据里面隐藏的信息。”数字所副所长、可视计算研究中心主任陈宝权在接受《中国科学报》记者采访时表示。
陈宝权举例介绍,一个城市里面蕴涵了三维城市场景数据、交通视频监控数据、出租车GPS轨迹以及市民的社交网络等各种各样的数据。如何把这些数据融合在一起,再提炼有用信息,如同大海捞针般充满挑战;通过可视化手段把数据有效呈现出来,如同打亮了探照灯一样,让重要信息(“针”)从大数据的背景(“海”)中清晰显现。
早在2011年,可视计算研究中心就完成了深圳福田、罗湖、南山和盐田4个区所有街道的三维实景建模。陈宝权告诉记者:“我们有一辆装载着激光扫描仪和360 实景影像系统的车,每天行走于大街小巷,可将街道两旁实景进行数据采集,再进行场景三维建模,从而得到深圳的城市3D模型。”这样的模型是其他城市数据的载体。
陈宝权指出,随着城市、交通、气象等数据容量和复杂性不断增长,可视化的需求将越来越大,依靠可视化手段进行数据分析将会成为业内的标准。
汤晓鸥从自身研究的视觉领域举例:“大规模视觉数据对物体识别、图像检索、视频分析等传统技术提出了巨大挑战,同时也孕育着新的技术方向和产业机会。”
采集数据分类计算
呈现来源于数据,数字所云计算研究中心的一项工作就是数据管理、处理与服务。
“‘大数据’这个词最近很热,但大数据早就有,并不仅是作为一个新词而存在。”云计算中心主任须成忠在接受采访时说,“除了数据量大,大数据还有形态、实时性、安全性等一系列技术新挑战,然而大数据存在的最关键领域是应用。”
先进院的云计算中心依托中科院深圳超算中心,这里每秒都产生着巨大的数据信息。为此,中心自主研发了“先进云”,面向企业和个人用户提供安全可靠和高效节能的云计算管理、服务、应用和检测的解决方案。
“我们除了提供大数据的管理,还提供很多技术服务,以实现最终的应用。”须成忠指出。
云计算研究中心研发的基于北斗卫星系统的导航仪已通过测试,并实现了与GPS完全兼容,从单一的车船定位功能发展到个人信息化服务。须成忠介绍,该应用也可以不采用产品的形式,而提供一种在线服务,即云服务。
云计算中心依托超算中心采集的数据除了提供本中心使用,还需要对数据进行分类整理,传送给有需求的研究部门。
数字所科学与工程计算研究中心就是数据计算研究部门,中心主任蔡小川告诉记者:“简单说,我们的工作就是通过计算,从一大堆数据中找到有用数据。”
利用超算中心采集的数据,蔡小川团队已经计算出污染物扩散的快速模拟及实时动态演示系统、中国近海的海洋环境数值模拟、突发性天气对高铁、风能发电机等稳定性影响的数值分析等。
节能工程服务民生
是否可以说,以上就构成了大数据从采集到应用的一条完整链条?樊建平和冯圣中的回答不约而同:否。
体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity),业界将大数据的特点概括为4个“V”。“然而,在大数据高效运行的同时,也带来巨大能耗。”冯圣中告诉记者。
樊建平指着不远处的深圳超算中心说道:“这里每年的电费将会超过0.5亿元,这主要来自硬盘的不停歇运转。”能否降低硬盘的耗电?通过硬盘设计、压缩、检索等一系列合理计算,控制数据存放、减轻硬盘负荷,是可以实现节能降耗的。
为此,由樊建平率队承担的“863”计划重点项目“华南高性能计算与数据模拟网格节点”、“深港创新圈网格节点建设及应用”以及中科院知识创新工程重点方向项目“数据超算中心智能绿色计算模型及系统研发”,将在绿色计算方面作出有益探索。
冯圣中表示,大数据从外到内的四块支撑平台是不可分割、相辅相成的。从可视化界面到数据节能系统,从最底层到最上层,在每一个核心层面开展技术创新,大数据技术正逐步实现突破,并进一步应用到民生领域。
(原载于《中国科学报》 2013-03-26 第5版 创新周刊)