【ElasticSearch】DSL查询语法

注意这里的字段只有一个，但实际场景如：输入虹桥，预期返回business、name、brand等字段包含虹桥的数据，如此就得用上一节的。当然可以人为控制文档相关性算分，从而控制文档排名（fuction score：算分函数查询），例如百度竞价，谁出价高谁就在搜索第一位。对于不参与算分的查询，就放到must_not或者filter，减少不必要的算分，以提高查询性能。二者结果一样，但从性能考虑，推荐m

-代号9527

3552人浏览 · 2023-07-06 23:31:30

-代号9527 · 2023-07-06 23:31:30 发布

文章目录

1、DSL查询分类
2、DSL基本语法
3、全文检索查询
4、精确查询
5、地理查询
6、复合查询--相关性打分算法
7、复合查询之Function Score Query
8、复合查询之BooleanQuery

1、DSL查询分类

Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。官方文档：

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html

其中，常见的查询类型有：

查询所有：查询出所有数据，一般测试用。例如：

match_all

全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：

match_query
multi_match_query

精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：

ids
range
term

地理（geo）查询：根据经纬度查询。例如：

geo_distance
geo_bounding_box

复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：

bool
function_score

2、DSL基本语法

GET /indexName/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}

举例，查询类型为match_all，那查询条件就为空了：

在这里插入图片描述
示例：

在这里插入图片描述

3、全文检索查询

全文检索查询，会对用户输入内容分词，常用于搜索框搜索：

在这里插入图片描述

全文检索第一种：match查询

会对用户输入内容分词，然后去倒排索引库检索，语法：

GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

注意这里的字段只有一个，但实际场景如：输入虹桥，预期返回business、name、brand等字段包含虹桥的数据，如此就得用上一节的copy_to：all里的all字段：

GET /indexName/_search
{
  "query": {
    "match": {
      "all": "虹桥"
    }
  }
}

在这里插入图片描述
若再加词语，分词的原因，则返回结果更多，且同时有如家和虹桥两个词语的结果会排到最前面：

GET /indexName/_search
{
  "query": {
    "match": {
      "all": "虹桥如家"
    }
  }
}

在这里插入图片描述

全文检索第二种：multi_match查询

与match查询类似，只不过允许同时查询多个字段，语法：

GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1", " FIELD12"]
    }
  }
}

此时就不用借助copy_to和定义的all字段了：

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "虹桥如家",
      "fields": ["brand", "name","business"]
    }
  }
}

在这里插入图片描述

二者结果一样，但从性能考虑，推荐match+copy_to，因为参与搜索的字段越多，性能越低。

小结：
在这里插入图片描述

4、精确查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常用的两种：

term：根据词条精确值查询
range：根据值的范围查询

在这里插入图片描述

term查询：

// term查询
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

举例：

// term查询
GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "上海"
      }
    }
  }
}

在这里插入图片描述

精确匹配，必须一模一样：

在这里插入图片描述

range查询：

// range查询
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10,
        "lte": 20
      }
    }
  }
}

举例：

// range查询
GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 300
      }
    }
  }
}

在这里插入图片描述

gt: 大于
gte: 大于等于
lt: 小于
lte: 小于等于

小结：

在这里插入图片描述

5、地理查询

根据经纬度查询。常见的使用场景包括：

携程：搜索我附近的酒店
滴滴：搜索我附近的出租车
微信：搜索我附近的人

在这里插入图片描述

geo_bounding_box：

查询geo_point值落在某个矩形范围的所有文档

// geo_bounding_box查询
GET /indexName/_search
{
  "query": {
    "geo_bounding_box": {
      "FIELD": {
        "top_left": {
          "lat": 31.1,
          "lon": 121.5
        },
        "bottom_right": {
          "lat": 30.9,
          "lon": 121.7
        }
      }
    }
  }
}

如下图，蓝色地标为一个个酒店，落在矩形之内的即是符合要求的：

在这里插入图片描述

geo_distance：

查询到指定中心点小于某个距离值的所有文档

// geo_distance 查询
GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km",
      "FIELD": "31.21,121.5"
    }
  }
}
// "31.21,121.5"是我的位置坐标
//FIELD则写酒店位置字段，即location
//以上即查出以我为中心，附近15KM内的酒店

在这里插入图片描述

示例：

GET /hotel/_search
{
  "query": {
    "geo_distance": {
      "distance": "5km",
      "location": "31.21,121.5"
    }
  }
}

在这里插入图片描述

6、复合查询–相关性打分算法

复合（compound）查询就是将上面这几种简单查询组合起来，实现更复杂的搜索逻辑。

相关性打分算法

在这里插入图片描述

在这里插入图片描述
三个文档里都有如家，大家都加一定得分，那这个词意义不大，即它相应的权重应该低一点，因此，TF-IDF算法：

在这里插入图片描述
TF-IDF算法受词频影响太大，

因此elasticsearch5.0后，相关性打分算法采用BM25算法：

在这里插入图片描述

小结：
在这里插入图片描述

当然可以人为控制文档相关性算分，从而控制文档排名（fuction score：算分函数查询），例如百度竞价，谁出价高谁就在搜索第一位。

在这里插入图片描述

7、复合查询之Function Score Query

使用 function score query，可以修改文档的相关性算分（query score），根据新得到的算分排序。

在这里插入图片描述

关键点：

过滤条件：哪些文档需要算分加权
算分函数：与query score运算后得到新的算分
加权模式：算分函数的结果和query score如何运算，相乘、相加、替代、求和、取平均…

案例：给"如家"这个品牌的酒店排名靠前一些

比如搜外滩附近的酒店，先不给任何品牌人工加分，看下结果：

在这里插入图片描述
接下来过滤品牌为如家的，并给对应的文档加分，算分函数用weight，加权模式为默认的相乘：

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {// ... },
      "functions": [ // 算分函数
        {
          "filter": { // 满足的条件，品牌必须是如家
            "term": {
              "brand": "如家"
            }
          },
          "weight": 2 // 算分权重为2
        }
      ],
      "boost_mode": "sum"
    }
  }
}

在这里插入图片描述

可以看到外滩如家由3.8变成了38，一跃成为第一。

小结：

在这里插入图片描述

8、复合查询之BooleanQuery

布尔查询是一个或多个查询子句的组合（和Function Score Query不一样，不是用来修改算分的）。子查询的组合方式有：

must：必须匹配must[ ]里的每个子查询，类似“与”
should：选择性匹配子查询，类似“或”
must_not：必须不匹配，不参与算分，类似“非”，常用于”不高于"、"不低于"场景
filter：必须匹配，不参与算分

适用场景如：

在这里插入图片描述

对于不参与算分的查询，就放到must_not或者filter，减少不必要的算分，以提高查询性能。

GET /hotel/_search
{
  "query": {
    "bool": {   //类型为bool
      "must": [
        {"term": {"city": "上海" }}
      ],
      "should": [
        {"term": {"brand": "皇冠假日" }},
        {"term": {"brand": "华美达" }}  //这两个品牌都可以
      ],
      "must_not": [
        { "range": { "price": { "lte": 500 } }} //小于等于500取反，即大于500
      ],
      "filter": [
        { "range": {"score": { "gte": 45 } }}   //用户评分必须大于45分
      ]
    }
  }
}

需求：搜索名字包含“如家”，价格不高于400，在坐标31.21,121.5周围10km范围内的酒店。

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {"name": "如家"}
        }
      ],
      "must_not": [
        {
          "range": { "price": {"gt": 400}}
        }
      ],
      "filter": [
        {
          "geo_distance": {
            "distance": "10km", "location": {"lat": 31.21, "lon": 121.5}
          }
        }
      ]
    }
  }
}