在大数据时代,搜索是软件工程师的一项必备技能。而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎,在同领域内几乎没有竞争对手——近两年 DB-Engines 的数据库评测中,Elasticsearch 在搜索引擎领域始终位列第一。
Elasticsearch 不仅可以从海量数据中快速找到相关信息,还被广泛运用于大数据近实时分析,包括日志分析、指标监控、信息安全等多个领域。
它可以探索海量结构化、非结构化数据,按需创建可视化报表,对监控数据设置报警阈值,甚至通过机器学习自动识别异常状况。
作为目前最流行的开源搜索引擎,腾讯、滴滴、今日头条、饿了么、360 安全、小米,vivo 等国内诸多知名公司都在使用 Elasticsearch。
上手 Elasticsearch 也很容易,花几分钟设置好开发环境,就能在成百上千台服务器上实现 PB 级的数据处理了。但要深入理解并高效使用,就没那么简单了,比如:
为什么我的数据查不到,明明有的啊!
这几条数据怎么会出现在搜索结果前几位?
生产环境需要多少台机器,索引的分片数怎样设置才合理?
应该关注哪些指标,才能保证集群健康高效地运行?
对于日志型应用,如何设置 Hot & Warm Architecture 节约成本,怎样管理和优化基于时间序列的索引数据,才能提高集群的整体性能?
为什么我的集群脑裂了?数据损坏后,怎样才能恢复?
其实,想要用对、用好 Elasticsearch,不仅要理解其分布式架构的原理,还要掌握一些信息检索领域的知识。这里,分享给你一张 「Elasticsearch 知识图谱」,深入理解每个知识点,才能解决工作中的实际问题。
这张图出自阮一鸣,他是 eBay Pronto 平台技术负责人,管理了 eBay 内部上百个 Elasticsearch 集群,数据规模超过 4000 节点,支撑了订单搜索,商品推荐,日志管理,风险控制,IT 运维,安全监控等不同领域服务。
最早,听过他在 Elastic 中国开发者大会的分享,讲得很棒。后来得知他出了个 Elasticsearch 视频课,我第一时间就订阅了,到如今也是 2 刷完毕,确实收获很大,帮我解决了工作中的不少问题。
值得一提的是,它覆盖了 Elastic 官方认证的全部考点,不少人因为看了这个课,通过了 Elastic 认证。要知道,这个考试在圈里出了名的难通过,毕竟都是上手实操题。而这个课程中的测试用例,就是非常好的练习素材,说实话,每个 case 的代码我都敲过 3 遍以上。
这个认证的含金量还是挺高的,很多巨头都在使用 ES 搭建自己的搜索系统。你去应聘的时候,有证跟没证有可能就会影响你的录取,收入也有可能差一个档次。
课程现在超 60000 订阅了,InfoQ 读者专属优惠,新用户近 3 折抢购,仅限这几天,有需要赶紧上车