2018年度  第12期


标题:基于大数据的ETL中的数据清洗方案研究
作者:周瀚章 冯广 龚旭辉 曾虎 徐启东
作者单位:广东工业大学自动化学院,广东 广州 510006
关键字:数据清洗,ETL技术,海量数据
摘要:ETL,又被称为数据仓库技术,是指数据源经过抽取(Extract)、转换(Transform)、加载(Load)的过程。在运用ETL技术的过程中,会产生一些有着错误属性的数据,特别是在大数据时代的背景下,这种错误数据量往往十分庞大,传统的数据清洗方案效果不甚理想。设计一种基于大数据的ETL的高效数据清洗方案,通过对27组数据的清洗,将数据清洗方案与传统数据清洗方案进行对比,实验结果表明:该数据清洗方案能够有效提高数据清洗的效率,并且保持较高的准确性。