海洋数据挖掘
理学院
Marine Data Mining
海洋约占地球表面积的71%,目前人类已经探索的海底只有5%。海洋数据资料浩如烟海.它涵盖了海底地形数据、海洋遥感资料等诸多方面。拥有海洋大数据可以更好地认识海洋,掌控大数据才能更好地经略海洋。随着数据量大剧增,面向海洋数据的存储、分析和处理能力明显滞后于观测技术的发展。“大数据,小知识”的矛盾严重影响着海洋数据应用的时效性和准确性,限制了海洋数据最大应用价值的挖掘。在新的时代背景下,如何获取、管理和用好海洋大数据,发挥其在智慧海洋建设中的灵魂作用,已成为当今海洋学界绕不开的重要话题。因此,迫切需要结合数据挖掘与分析技术,实现对海洋温度、盐度、水文等海洋数据的挖掘服务,发现其潜在规律。
传统数据库存储方式日益乏力, 而且产生的海量数据更多地以非结构化或半结构化的形式存在, 传统处理方式已经不能满足日常业务化工作的需要。本项目将依托海内外海洋局平台,利用R语言、Python第三方库进行数据挖掘,结合NumPy库的多维数组对象,构建算法到MySQL数据库的数据传递容器,并采用pandas库中DataFrame和R语言的data.frame对象,对数据完成重塑、切片和切块、聚合以及选取数据子集等操作;引用matplotlib库来完成图表绘制、数据可视化等工作,最终提取出大数据支撑下的海洋生态相关结论,增加数据吞吐量,完成数据爬取、清洗、建模等研究过程,并从中得出推动海洋生态发展的相关结论。