分布式搜索研究引擎Elasticsearch实现亿万级搜索的秘密

发布时间：2021-10-02 15:57:17 所属栏目：大数据来源：互联网

导读：Elasticsearch（ES）作为开源首选的分布式搜索分析引擎，通过一套系统轻松满足用户的日志实时分析、全文检索、结构化数据分析等多种需求，大幅降低大数据时代挖掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES，同时联合 Elastic 公司在腾讯云上

　　内存成本方面，很多用户在使用大存储机型时会发现，存储资源才用了百分之二十，内存已经不足。其实基于时序数据的访问特性，我们可以利用 Cache 进行优化，后面会展开介绍。

　　我们展开介绍下 Rollup 部分。官方从 ES 6.x 开始推出 Rollup，实际上腾讯在 5.x 已经开始这部分的实践。Rollup 类似于大数据场景下的 Cube、物化视图，它的核心思想是通过预计算提前生成统计信息，释放掉原始粒度数据，从而降低存储成本、提高查询性能，通常会有数据级的收益。这里举个简单的例子，比如在机器监控场景下，原始粒度的监控数据是 10 秒级的，而一个月之前的监控数据，一般只需要查看小时粒度，这即是一个 Rollup 应用场景。

　　在大数据领域，传统的方案是依赖外部离线计算系统，周期性的读取全量数据进行计算，这种方式计算开销、维护成本高。谷歌的广告指标系统 Mesa 采用持续生成方案，数据写入时系统给每个 Rollup 产生一份输入数据，并对数据进行排序，底层在 Compact/Merge 过程中通过多路归并完成 Rollup，这种方式的计算、维护成本相对较低。ES 从 6.x 开始支持数据排序，我们通过流式查询进行多路归并生成 Rollup，最终计算开销小于全量数据写入时 CPU 开销的 10%，内存使用小于 10MB。我们已反馈内核优化至开源社区，解决开源 Rollup 的计算、内存瓶颈，具体可参考 PR ES-48399。

　　接下来，我们展开介绍内存优化部分。前面提到很多用户在使用大存储机型时，内存优先成为瓶颈、硬盘不能充分利用的问题，主要瓶颈在于索引占用大量内存。但是我们知道时序类场景对历史数据访问很少，部分场景下某些字段基本不使用，所我们可以通过引入 Cache 来提高内存利用效率。

　　在内存优化方面，业界的方案是什么样的呢？ES 社区从 7.x 后支持索引放于堆外，和 DocValue 一样按需加载。但这种方式不好的地方在于索引和数据的重要性完全不同，一个大查询很容易导致索引被淘汰，后续查询性能倍数级的衰减。Hbase 通过缓存 Cache 缓存索引、数据块，提升热数据访问性能，并且从 HBase 2.0 开始，重点介绍其 Off Heap 技术，重点在于堆外内存的访问性能可接近堆内。我们基于社区经验进行迭代，在 ES 中引入 LFU Cache 以提高内存的利用效率，把 Cache 放置在堆外以降低堆内存压力，同时通过 Weak Reference、减少堆内外拷贝等技术降低损耗。最终效果是内存利用率提升 80%，可以充分利用大存储机型，查询性能损耗不超过 2%，GC 开销降低 30%。

　　前面我们介绍了可用性、成本优化的解决方案，最后我们来介绍性能方面的优化实践。以日志、监控为代表的时序场景，对写入性能要求非常高，写入并发可达 1000w/s。然而我们发现在带主键写入时，ES 性能衰减 1+倍，部分压测场景下，CPU 无法充分利用。以搜索服务为代表的场景，对查询性的要求非常高，要求 20w QPS, 平响 20ms，而且尽量避免 GC、执行计划不优等造成的查询毛刺。

　　针对上述问题，我们介绍下腾讯在性能方面的优化实践：

　　写入方面，针对主键去重场景，通过利用索引进行裁剪，加速主键去重的过程，写入性能提升 45%，具体可参考 PR

　　Lucene-8980。对于部分压测场景下 CPU 不能充分利用的问题，通过优化 ES 刷新 Translog 时的资源抢占，提升性能提升 20%，具体可参考 PR ES-45765 /47790。我们正在尝试通过向量化执行优化写入性能，通过减少分支跳转、指令 Miss，预期写入性能可提升 1 倍。

　　查询方面，我们通过优化 Merge 策略，提升查询性能，这部分稍后展开介绍。基于每个 Segment 记录的 min/max 索引，进行查询剪枝，提升查询性能 30%。通过 CBO 策略，避免查询 Cache 操作导致查询耗时 10+倍的毛刺，具体可参考Lucene-9002。此外，我们也在尝试通过一些新硬件来优化性能，比如说英特尔的 AEP、Optane、QAT 等。

　　接下来我们展开介绍下 Merge 策略优化部分。ES 原生的 Merge 策略主要关注大小相似性和最大上限，大小相似性是指 Merge 时尽量选择大小相似的 Segments 进行 Merge，最大上限则考虑尽量把 Segment 拼凑到 5GB。那么有可能出现某个 Segment 中包含了 1 月整月、3 月 1 号的数据，当用户查询 3 月 1 号某小时的数据时，就必须扫描大量无用数据，性能损耗严重。

　　我们在 ES 中引入了时序 Merge，在选择 Segments 进行 Merge 时，重点考虑时间因素，这样时间相近的 Segments 被 Merge 到一起。当我们查询 3 月 1 号的数据时，只需要扫描个别较小的 Segments 就好，其他的 Segments 可以快速裁剪掉。

　　另外，ES 官方推荐搜索类用户在写入完成之后，进行一次 Force Merge，用意是把所有 Segments 合并为一个，以提高搜索性能。但这增加了用户的使用成本，且在时序场景下，不利于裁剪，需要扫描全部数据。我们在 ES 中引入了冷数据自动 Merge，对于非活跃的索引，底层 Segments 会自动 Merge 到接近 5GB，降低文件数量的同时，方便时序场景裁剪。对于搜索场景，用户可以调大目标 Segment 的大小，使得所有 Segments 最终 Merge 为一个。我们对 Merge 策略的优化，可以使得搜索场景性能提升 1 倍。

　　前面介绍完毕我们再 ES 内核方面的优化实践，最后我们来简单分享下我们在开源贡献及未来规划方面的思考。

　　四、未来规划及开源贡献

　　近半年我们向开源社区提交了 10+PR，涉及到写入、查询、集群管理等各个模块，部分优化是和官方开发同学一起来完成的，前面介绍过程中，已经给出相应的 PR 链接，方便大家参考。我们在公司内部也组建了开源协同的小组，来共建 Elastic 生态。

　　总体来说，开源的收益利大于弊，我们把相应收益反馈出来，希望更多同学参与到 Elastic 生态的开源贡献中：首先，开源可以降低分支维护成本，随着自研的功能越来越多，维护独立分支的成本越来越高，主要体现在与开源版本同步、快速引入开源新特性方面；其次，开源可以帮助研发同学更深入的把控内核，了解最新技术动态，因为在开源反馈的过程中，会涉及与官方开发人员持续的交互。此外，开源有利于建立大家在社区的技术影响力，获得开源社区的认可。最后 Elastic 生态的快速发展，有利于业务服务、个人技术的发展，希望大家一起参与进来，助力 Elastic 生态持续、快速的发展。

　　未来规划方面，这次分享我们重点介绍了腾讯在 ES 内核方面的优化实践，包含高可用、低成本、高性能等方面。此外，我们也提供了一套管控平台，支持线上集群自动化管控、运维，为腾讯云客户提供 ES 服务。但是从线上大量的运营经验分析，我们发现仍然有非常丰富、高价值的方向需要继续跟进，我们会持续继续加强对产品、内核的建设。

　　长期探索方面，我们结合大数据图谱来介绍。整个大数据领域，按照数据量、延时要求等特点，可以划分为三部分：第一部分是 Data Engineering，包含我们熟悉的批量计算、流式计算；第二部分是 Data Discovery，包含交互式分析、搜索等；第三个部分是 Data Apps，主要用于支撑在线服务。

　　虽然我们把 ES 放到搜索领域内，但是也有很多用户使用 ES 支持在线搜索、文档服务等；另外，我们了解到有不少成熟的 OLAP 系统，也是基于倒排索引、行列混存等技术栈，所以我们认为 ES 未来往这两个领域发展的可行性非常强，我们未来会在 OLAP 分析和在线服务等方向进行重点探索。

（编辑：淮安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页