大数据培训技术：MapReduce和Hadoop在解决大数据问题中的缺陷--粉丝服务平台-粉丝头条-fensifuwu.com

大数据培训技术：MapReduce和Hadoop在解决大数据问题中的缺陷

科技 11-21 来源：科多大数据

MapReduce和HadoopMapReduce是Google提出的一种编程模型，利用“Map(映射)”和“Reduce(化简)”的思想实现大规模数据集的并行运算。基于MapReduce和GFS，Apache开发了一个开源分布式计算框架Hadoop，高容错性、高传输性、低廉硬件等优点使Hadoop迅速成为大数据的主要解决方案。科多大数据和大家来看看现有研究成果，主要集中在以下三个主题，

1、算法创新与实践。代表性成果如ZhaoWeizhong为检测大型社区网络(如Twitter)提出了一种并行结构的聚类算法;一些类似MapReduce的系统如ApacheMahout在顶层嵌入了机器学习的新算法，加州伯克利大学的Spark集成了统计算法等服务。

2、二次开发及应用。如RubaoLee开发了一个被称作Ysmart的系统，该系统能高效率完成SQL到MapReduce的数据转换;PedroFerrera探索了MapReduce元组拓展模型，并应用开源框架Pangool开展了设计和实证，发现新的模型能增强灵活性，而且保持Hadoop的处理能力。

3、与传统技术的承接和融合。QinXiongpai阐述了将RDBMS和MapReduce融合成一个统一的大数据分析系统的思想，并在Hadoop中对数据进行了OLAP分析和查询实验;AnirbanMukherjee讨论了传统POSIX集群文件系统与Hadoop文件系统的比较，并在共享存储模型之上的大数据分析进行实验。

缺陷与改进

虽然MapReduce模型和Hadoop工具在解决大数据问题发挥着举足轻重的作用，但仍有以下两个缺陷值得研究和改进:

1、数据统计分析和展示方面。MapReduce模型和Hadoop工具缺乏像数据库中数据管理的精细化特征，同时在数据统计和结果展示方面仍然有很大提升空间，探索与统计分析软件(如R语言、SAS、Matlab等)以及可视化工具(如标签云、Clustergra等)的集成与合作会成为未来的发展趋势。

2、算法优化与创新方面。原始的MapReduce支持迭代计算的性能较差，在处理超高维度数据的分类和聚类计算时需要对算法进行改进，比如决策树递归算法只能在Map内部操作实现，这会造成Map的单个节点内存消耗随决策树深度不断递增而增加，存在溢出风险。此外，在社会网络实时全图更新挖掘中，MapReduce容易产生大量不必要的序列化和反序列化开销。许多系统在实际应用中都会改进MapReduce模型，如华盛顿大学的HaLoop在利用缓存和创建索引方式减少读写次数等方面做了尝试。

经典算法如K－means、遗传算法、神经网络算法等已经难以满足大数据分析的需求，算法的改进和创新已经是应对大数据处理和分析的一个重要挑战。我们国内的大数据行业刚刚兴起不久，想要学习大数据的小伙伴们，科多大数据为大家提供了学习平台哦，学习视频已经更新上传，可以来科多大数据官网领取学习账号。