es--Elastic Search深度分页问题分析及四种解决方案

Scroll API是Elasticsearch提供的一种用于深度分页的解决方案。它允许您从数据集中获取大量数据而不会使用过多的资源。Scroll API通过分批次读取数据，将查询拆分为多个小块，并在每个小块完成后将其提交到Web浏览器。这意味着您可以一次性检索大量文档，而不必担心过多的资源使用和系统崩溃。Search After是Elasticsearch提供的另一种用于深度分页的解决方案。它允

KIng-Knock

4533人浏览 · 2023-09-11 07:00:00

KIng-Knock · 2023-09-11 07:00:00 发布

1. 简介

Elasticsearch的深度分页是指当你需要查询的结果数量非常多时，需要分页查询的第n页时，每次查询都需要扫描前n-1页的数据来获取结果。这样会导致性能问题，因为它需要很长的时间来完成查询。

2. 解决方案

Scroll API: Scroll API可以让你在每个查询阶段中存储状态。这样，你就不需要从头开始查询，而只需要继续上一次的查询。使用Scroll API可以避免深度分页的开销，并且可以更好地管理内存。
Search After: Search After是一种基于游标的分页方案，它使用最后一个结果的位置作为游标位置，从而避免使用_from_和_size_参数。
Time-Based Pagination: 在特定情况下，你可以使用基于时间的分页方案来避免深度分页问题。例如，当你需要按照日期或时间戳排序时，你可以使用基于时间的分页。
Shard-Based Pagination: 当你需要对分布式数据进行深度分页时，你可以使用基于分片的分页方案。这种方案将搜索分解成多个分片，然后对每个分片进行分页查询，最后将结果聚合在一起。

3. scoroll API

3.1 简介

Scroll API是Elasticsearch提供的一种用于深度分页的解决方案。它允许您从数据集中获取大量数据而不会使用过多的资源。

Scroll API通过分批次读取数据，将查询拆分为多个小块，并在每个小块完成后将其提交到Web浏览器。这意味着您可以一次性检索大量文档，而不必担心过多的资源使用和系统崩溃。

3.2 实现方式

使用search API对数据进行初始查询，并提供scroll参数，该参数指定滚动时间的长度。
Elasticsearch返回一个scroll_id，该ID用于检索下一批数据。
使用scroll API检索下一批数据，并将scroll_id作为参数传递。
重复步骤3，直到所有数据都已检索。
最后使用clear_scroll API来清除滚动上下文。

3.3 注意

使用Scroll API，您可以检索大量数据而不必担心内存使用问题，因为每个请求都只需要在内存中保存一小部分数据。然而，它也有一些限制，如延迟和限制的滚动ID的数量。

4. Search After

4.1 简介

Search After是Elasticsearch提供的另一种用于深度分页的解决方案。它允许您非常快速地检索大量数据并避免使用scroll API。

Search After需要使用排序字段和排序方向，以及最后一条记录的值来获取下一个分页。排序字段必须是唯一的，并且必须被所有文档定义。

4.2 实现方式

使用search API对数据进行初始查询，并指定排序字段和排序方向。
从响应中获取最后一条记录的排序字段值。
使用search after参数检索下一批数据，并将之前获取的排序字段值作为参数传递。
重复步骤2和3，直到所有数据都已检索。

4.3 注意

使用Search After可以减少内存的使用，因为它不需要使用滚动上下文来存储结果。此外，它通过使用排序字段和排序方向来使性能得到了优化。

但是，与scroll API不同，Search After需要您手动迭代页面，并且需要在每个页面上进行额外的查询。此外，如果数据集中有多个文档具有相同的排序字段值，则可能会出现一些问题。

5. Time-Based Pagination

5.1 简介

Time-Based Pagination (基于时间的分页)是一种解决深度分页问题的方案，它的核心思想是根据时间进行分页。在这种方案中，每个页面都是根据创建时间、修改时间或更新时间进行排序的，然后按照时间范围进行分页。这种分页方案的好处是可以减少数据库的查询负荷，同时保障页面的加载速度。

5.2 实现方式

基于时间的分页可以采用两种方式进行实现：一种是使用时间戳，另一种是使用时间范围。

使用时间戳进行分页，即将每条数据的时间戳作为页面中的唯一标识，根据时间戳对数据进行排序，然后根据时间戳进行分页。这种方式的优势在于它非常简单，但缺点是需要使用唯一的时间戳来对每个数据进行排序，这往往需要占用大量的存储空间。

使用时间范围进行分页，即将时间区间作为页面的唯一标识，根据时间范围对数据进行排序，然后根据时间范围进行分页。这种方式的优势在于它可以减少存储空间的占用，但缺点是需要使用更复杂的算法来对数据进行排序，并且需要处理时间范围的交叉和重叠问题。

5.3 注意

无论是使用时间戳还是使用时间范围进行分页，都需要注意数据的时区，因为不同的时区可能会导致数据排序不一致。另外，为了提高查询效率，也可以使用缓存和索引优化技术来优化分页查询。

6. Shard-Based Pagination

6.1 简介

Shard-Based Pagination是一种深度分页解决方案，可以减轻单个查询处理所有数据的负担。该方案建议使用分布式数据库或搜索引擎系统，并将数据按照一定的规则分成多个分片存储。当需要进行深度分页查询时，只查询需要的分片数据，减少了单个查询处理数据量的负担。

6.2 实现方式

将数据根据一定的规则分片存储，例如按时间、地理位置、用户ID等。
对于需要进行深度分页查询的请求，根据查询条件确定需要查询的分片数据。
对于每个分片数据，使用常规的分页方法进行查询。
将分页结果按照查询条件合并，得到最终的查询结果。

6.3 注意

需要注意的是，Shard-Based Pagination需要在数据存储时进行分片，因此需要考虑好数据结构和分片规则，避免出现数据分散不均的情况。同时，分片的实现也需要保证数据的一致性和可靠性。

总的来说，Shard-Based Pagination是一种有效解决深度分页查询性能问题的方案，可以较好地应对大量数据查询的需求。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

【Spring Boot 】Spring Boot + HikariCP 连接池使用示例

文章目录示例工具版本HikariCP 依赖HikariCP 配置1. connectionTimeout2. minimumIdle3. maximumPoolSize4. idleTimeout5. maxLifetime6. autoCommitSpring Boot Data + HikariCP + MySQL示例测试应用程序1. 使用 Maven 命令2. 使用 Eclipse3. 使用