“全球遥感卫星的数量超过1000颗,全球遥感数据存档量达到10亿GB量级,各种陆基海基观测网络达上千个,互联网上各种地球系统模式产生的数据达到2亿至4亿GB之多。”近日,以“地球大数据”为主题的第628次香山科学会议学术讨论会在北京举行。作为执行主席的中科院院士徐冠华在会议报告上分享上述数据时,会场内发出阵阵惊叹。即使是从事大数据研究的专家,也难以想象如此天文数据。与会专家认为,如何用好地球大数据,准确理解、预测复杂的科学问题,推动地球系统科学的进步,成为当前地球系统科学的热点。
新科学范式
据统计,自人类有记载的文明开始至2003年,人类共创造5TB数据,而到2019年人类产生的数据预计将达到40ZB。短短十几年来,人类创造了从前8万亿倍的数据量。
有别于实验、推理和传统计算科学,基于大数据的科学研究已形成一种新的科学范式。徐冠华指出,基于大数据的分析带来了科学思维方式的重大变革。“大数据时代研究过程直接将总体作为研究对象,不再进行抽样,避免了抽样质量对结果的影响。这让大数据在更大规模上提高了精确度,提升了预测的准确性。同时,大数据分析从因果分析转向了相关分析,实现了数据分析的实用性。”
而作为科学大数据重要组成部分的地球大数据,正在成为地球科学的重要前沿领域。“地球大数据具有空间属性,一方面具有海量、多源、多时相、异构、多尺度、非平稳等大数据的一般性质,同时具有很强的时空关联和物理关联。”会议执行主席、中科院遥感与数字地球研究所研究员、中科院院士郭华东指出。
今年,中科院正式设立了“地球大数据科学工程”A类先导专项,旨在建成国际地球大数据科学中心。科学家期待,它在驱动地球学科发展、促进全球可持续发展等方面具有重大意义。
“星星之火”涌现
地球大数据究竟可以用来做什么,成为与会专家共同关注的话题。目前,科学界和产业界已经开始尝试从不同角度利用地球大数据解决实际问题。
徐冠华表示:“大数据研究有助于提升地球系统行为的预报能力。”例如,近年来,中国学者基于24年的观测和再分析材料,建立了机器学习框架,实现了长达2天的台风预报,台风48小时预报准确率超过85%。在海冰预报上,我国学者基于北纬30度以北36年全部观测数据,利用大数据时空网络分析方法,获得了北极海冰覆盖范围的6种显著时空影响要素。
不仅如此,遥感大数据也被应用于经济活动等预测。多家企业利用遥感大数据对矿石户外堆放情况及储油罐在不同太阳高度角阴影的观测,追踪、预测大型矿产和原油的供需变化,最终预测其价格波动。
与会专家认为,当前,地球系统科学仍处在大数据的萌芽期,上述成功案例将成为这一领域的“星星之火”,意味着未来巨大的应用潜力。
亟待良性生态系统
在与会专家看来,地球大数据方法论的建立、大数据的应用需要多学科交叉,建立良性的生态系统。会议上,徐冠华提出,要完善云计算基础设施,实现以机器学习为代表的人工智能与大数据深度融合,制定以企业为主体、市场为导向的大数据发展政策,以数据共享为基础推动地球大数据产业健康发展。郭华东指出,地球大数据还需要为全球变化与可持续发展目标服务。
会议执行主席、中科院遥感与数字地球研究所研究员吴炳方指出,深度学习在计算机视觉领域上的高速发展给数据集成与分析提供了新方法,地理众源大数据的普及则加速了深度学习在科学数据上的应用。
例如,总部位于美国芝加哥的Remote Sensing Metrics公司基于对全美45家大型商场与连锁餐馆的超过10万个停车场的车流量变化数据分析,预测企业经营状况,为华尔街对冲基金提供工具。“这就是将计算机视觉、机器学习等技术应用于云端海量高分影像分析的成功案例,云计算、机器学习技术是主导其成功的技术。”徐冠华说。
同时,以企业为主体、市场为导向的大数据发展政策也是形成大数据良好生态的重要保障。专家建议,鉴于我国地学大数据大多来自大学和研究所,尚需出台良好政策引导企业发挥其在大数据科学发展和应用中的作用。
此外,打破行业、部门间的壁垒,实现最大程度的数据共享,也是专家们普遍关注的“老”问题。他们认为,只有保障数据充分流动,才能有效推动地球大数据产业健康发展。