分布式搜索研究引擎Elasticsearch实现亿万级搜索的秘密

发布时间：2021-10-02 15:57:17 所属栏目：大数据来源：互联网

导读：Elasticsearch（ES）作为开源首选的分布式搜索分析引擎，通过一套系统轻松满足用户的日志实时分析、全文检索、结构化数据分析等多种需求，大幅降低大数据时代挖掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES，同时联合 Elastic 公司在腾讯云上

　　Elasticsearch（ES）作为开源首选的分布式搜索分析引擎，通过一套系统轻松满足用户的日志实时分析、全文检索、结构化数据分析等多种需求，大幅降低大数据时代挖掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES，同时联合 Elastic 公司在腾讯云上提供内核增强版的 ES 云服务，大规模、丰富多样的的使用场景推动着腾讯对原生 ES 进行持续的高可用、高性能、低成本优化。

　　一、ES 在腾讯的应用场景

　　【ES 在腾讯的应用场景】

　　最初我们使用 ES 于日志实时分析场景，典型日志如下：

　　运营日志，比如慢日志、异常日志，用来定位业务问题；

　　业务日志，比如用户的点击、访问日志，可以用来分析用户行为；

　　审计日志，可以用于安全分析。ES 很完美的解决了日志实时分析的需求，它具有如下特点：

　　Elastic 生态提供了完整的日志解决方案，任何一个开发、运维同学使用成熟组件，通过简单部署，即可搭建起一个完整的日志实时分析服务。

　　在 Elastic 生态中，日志从产生到可访问一般在 10s 级。相比于传统大数据解决方案的几十分钟、小时级，时效性非常高。

　　由于支持倒排索引、列存储等数据结构，ES 提供非常灵活的搜索分析能力。

　　支持交互式分析，即使在万亿级日志的情况下，ES 搜索响应时间也是秒级。

　　日志是互联网行业最基础、最广泛的数据形式，ES 非常完美的解决了日志实时分析场景，这也是近几年 ES 快速发展的一个重要原因。

　　第二类使用场景是搜索服务，典型场景包含：商品搜索，类似京东、淘宝、拼多多中的商品搜索；APP 搜索，支持应用商店里的应用搜索；站内搜索，支持论坛、在线文档等搜索功能。我们支持了大量搜索服务，它们主要有以下特点：

　　高性能：单个服务最大达到 10w+ QPS，平响 20ms~，P95 延时小于 100ms。

　　强相关：搜索体验主要取决于搜索结果是否高度匹配用户意图，需要通过正确率、召回率等指标进行评估。

　　高可用：搜索场景通常要求 4 个 9 的可用性，支持单机房故障容灾。任何一个电商服务，如淘宝、京东、拼多多，只要故障一个小时就可以上头条。

　　第三类使用场景是时序数据分析，典型的时序数据包含：Metrics，即传统的服务器监控；APM，应用性能监控；物联网数据，智能硬件、工业物联网等产生的传感器数据。这类场景腾讯很早就开始探索，在这方面积累了非常丰富的经验。这类场景具有以下特点：

　　高并发写入：线上单集群最大规模达到 600+节点、1000w/s 的写入吞吐。

　　高查询性能：要求单条曲线或者单个时间线的查询延时在 10ms~。

　　多维分析：要求灵活、多维度的统计分析能力，比如我们在查看监控的时候，可以按照地域、业务模块等灵活的进行统计分析。

　　二、遇到的挑战

　　前面我们介绍了 ES 在腾讯内部的广泛应用，在如此大规模、高压力、丰富使用场景的背景下，我们遇到了很多挑战，总体可以划分为两类：搜索类和时序类。

　　首先，我们一起看看搜索类业务的挑战。以电商搜索、APP 搜索、站内搜索为代表，这类业务非常重视可用性，服务 SLA 达到 4 个 9 以上，需要容忍单机故障、单机房网络故障等；同时要求高性能、低毛刺，例如 20w QPS、平响 20ms、P95 延时 100ms。总之，在搜索类业务场景下，核心挑战点在于高可用、高性能。

　　另一类我们称之为时序类业务挑战，包含日志、Metrics、APM 等场景。相比于搜索类业务重点关注高可用、高性能，时序类业务会更注重成本、性能。比如时序场景用户通常要求高写入吞吐，部分场景可达 1000w/s

　　WPS；在这样写入吞吐下，保留 30 天的数据，通常可达到 PB 级的存储量。而现实是日志、监控等场景的收益相对较低，很可能用户用于线上实际业务的机器数量才是 100 台，而监控、日志等需要 50 台，这对多数用户来说，基本是不可接受的。所以在时序类业务中，主要的挑战在于存储成本、计算成本等方面。

　　前面我们介绍了在搜索类、时序类业务场景下遇到的高可用、低成本、高性能等挑战，下面针对这些挑战，我们重点分享腾讯在 ES 内核方面的深入实践。

　　三、ES 优化实践

　　首先，我们来看看高可用优化，我们把高可用划分为三个维度：

　　系统健壮性：是指 ES 内核自身的健壮性，也是分布式系统面临的共性难题。例如，在异常查询、压力过载下集群的容错能力；在高压力场景下，集群的可扩展性；在集群扩容、节点异常场景下，节点、多硬盘之间的数据均衡能力。

　　容灾方案：如果通过管控系统建设，保障机房网络故障时快速恢复服务，自然灾害下防止数据丢失，误操作后快速恢复等。

　　系统缺陷：这在任何系统发展过程中都会持续产生，比如说 Master 节点堵塞、分布式死锁、滚动重启缓慢等。

　　针对上述问题，下面来介绍我们在高可用方面的解决方案：

　　系统健壮性方面，我们通过服务限流，容忍机器网络故障、异常查询等导致的服务不稳定，后面展开介绍。通过优化集群元数据管控逻辑，提升集群扩展能力一个数量级，支持千级节点集群、百万分片，解决集群可扩展性问题；集群均衡方面，通过优化节点、多硬盘间的分片均衡，保证大规模集群的压力均衡。

　　容灾方案方面，我们通过扩展 ES 的插件机制支持备份回档，把 ES 的数据备份回档到廉价存储，保证数据的可恢复；支持跨可用区容灾，用户可以按需部署多个可用区，以容忍单机房故障。垃圾桶机制，保证用户在欠费、误操作等场景下，集群可快速恢复。

　　系统缺陷方面，我们修复了滚动重启、Master 阻塞、分布式死锁等一系列 Bug。其中滚动重启优化，可加速节点重启速度 5+倍，具体可参考 PR ES-46520；Master 堵塞问题，我们在 ES 6.x 版本和官方一起做了优化。

　　这里我们展开介绍下服务限流部分。我们做了 4 个层级的限流工作：权限层级，我们支持 XPack 和自研权限来防止攻击、误操作；队列层级，通过优化任务执行速度、重复、优先级等问题，解决用户常遇到的 Master 任务队列堆积、任务饿死等问题；内存层级，我们从 ES 6.x 开始，支持在 HTTP 入口、协调节点、数据节点等全链路上进行内存限流，同时使用 JVM 内存、梯度统计等方式精准控制；多租户层级，我们使用 CVM/Cgroups 方案保证多租户间的资源隔离。

　　这里详细介绍下聚合场景限流问题，用户在使用 ES 进行聚合分析时，经常遇到因聚合分桶过多打爆内存的问题。官方在 ES 6.8 中提供 max_buckets 参数控制聚合的最大分桶数，但这个方式局限性非常强。在某些场景下，用户设置 20 万个分桶可以正常工作，但在另一些场景下，可能 10 万个分桶内存就已经打爆，这主要取决于单分桶的大小，用户并不能准确把握该参数设置为多少比较合适。我们在聚合分析的过程中，采用梯度算法进行优化，每分配 1000 个分桶检查一次 JVM 内存，当内存不足时及时中断请求，保证 ES 集群的高可用。具体可参考 PR ES-46751 /47806。

　　我们当前的限流方案，能够大幅提升在异常查询、压力过载、单节点故障、网络分区等场景下，ES 服务的稳定性问题。但还有少量场景没有覆盖完全，所以我们目前也在引入混沌测试，依赖混沌测试来覆盖更多异常场景。

　　前面我们介绍了高可用解决方案，下面我们来介绍成本方面的优化实践。成本方面的挑战，主要体现在以日志、监控为代表的时序场景对机器资源的消耗，我们对线上典型的日志、时序业务进行分析，总体来看，硬盘、内存、计算资源的成本比例接近 8:4:1，硬盘、内存是主要矛盾，其次是计算成本。

　　而对时序类场景进行分析，可以发现时序数据有很明显的访问特性。一是冷热特性，时序数据访问具有近多远少的特点，最近 7 天数据的访问量占比可达到 95%以上；历史数据访问较少，且通常都是访问统计类信息。

　　基于这些瓶颈分析和数据访问特性，我们来介绍成本优化的解决方案。

　　硬盘成本方面，由于数据具有明显的冷热特性，首先我们采用冷热分离架构，使用混合存储的方案来平衡成本、性能；其次，既然对历史数据通常都是访问统计信息，那么以通过预计算来换取存储和性能，后面会展开介绍；如果历史数据完全不使用，也可以备份到更廉价的存储系统；其他一些优化方式包含存储裁剪、生命周期管理等。

（编辑：淮安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页