大数据培训技术:MapReduce和Hadoop在解决大数据问题中的缺陷

MapReduce和HadoopMapReduce是Google提出的一种编程模型,利用“Map(映射)”和“Reduce(化简)”的思想实现大规模数据集的并行运算。基于MapReduce和GFS,Apache开发了一个开源分布式计算框架Hadoop,高容错性、高传输性、低廉硬件等优点使Hadoop迅速成为大数据的主要解决方案。科多大数据和大家来看看现有研究成果,主要集中在以下三个主题,

1、算法创新与实践。代表性成果如ZhaoWeizhong为检测大型社区网络(如Twitter)提出了一种并行结构的聚类算法;一些类似MapReduce的系统如ApacheMahout在顶层嵌入了机器学习的新算法,加州伯克利大学的Spark集成了统计算法等服务。

2、二次开发及应用。如RubaoLee开发了一个被称作Ysmart的系统,该系统能高效率完成SQL到MapReduce的数据转换;PedroFerrera探索了MapReduce元组拓展模型,并应用开源框架Pangool开展了设计和实证,发现新的模型能增强灵活性,而且保持Hadoop的处理能力。

3、与传统技术的承接和融合。QinXiongpai阐述了将RDBMS和MapReduce融合成一个统一的大数据分析系统的思想,并在Hadoop中对数据进行了OLAP分析和查询实验;AnirbanMukherjee讨论了传统POSIX集群文件系统与Hadoop文件系统的比较,并在共享存储模型之上的大数据分析进行实验。

缺陷与改进

虽然MapReduce模型和Hadoop工具在解决大数据问题发挥着举足轻重的作用,但仍有以下两个缺陷值得研究和改进:

1、数据统计分析和展示方面。MapReduce模型和Hadoop工具缺乏像数据库中数据管理的精细化特征,同时在数据统计和结果展示方面仍然有很大提升空间,探索与统计分析软件(如R语言、SAS、Matlab等)以及可视化工具(如标签云、Clustergra等)的集成与合作会成为未来的发展趋势。

2、算法优化与创新方面。原始的MapReduce支持迭代计算的性能较差,在处理超高维度数据的分类和聚类计算时需要对算法进行改进,比如决策树递归算法只能在Map内部操作实现,这会造成Map的单个节点内存消耗随决策树深度不断递增而增加,存在溢出风险。此外,在社会网络实时全图更新挖掘中,MapReduce容易产生大量不必要的序列化和反序列化开销。许多系统在实际应用中都会改进MapReduce模型,如华盛顿大学的HaLoop在利用缓存和创建索引方式减少读写次数等方面做了尝试。

经典算法如K-means、遗传算法、神经网络算法等已经难以满足大数据分析的需求,算法的改进和创新已经是应对大数据处理和分析的一个重要挑战。我们国内的大数据行业刚刚兴起不久,想要学习大数据的小伙伴们,科多大数据为大家提供了学习平台哦,学习视频已经更新上传,可以来科多大数据官网领取学习账号。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();