小五的个人杂货铺

发表于2021-09-20|更新于2023-06-16|elasticsearch|elasticsearch•elastic stack

自动补全当用户在搜索框输入字符时，我们应该提示出与该字符有关的搜索项，如图：这种根据用户输入的字母，提示完整词条的功能，就是自动补全了。因为需要根据拼音字母来推断，因此要用到拼音分词功能。测试用法如下： 12345POST /_analyze{ "text": "如家酒店还不错", "analyzer": "pinyin"} 结果： 0.自定义分词器默认的拼音分词器会将每个汉字单独分为拼音，而我们希望的是每个词条形成一组拼音，需要对拼音分词器做个性化定制，形成自定义分词器。 elasticsearch中分词器（analyzer）的组成包含三部分： character filters：在tokenizer之前对文本进行处理。例如删除字符、替换字符 tokenizer：将文本按照一定的规则切割成词条（term）。例如keyword，就是不分词；还有ik_smart [tokenizer] filter：将tokenizer输出的词条做进一步处理。例如大小...

Es知识小结

发表于2021-09-17|更新于2024-10-08|elasticsearch|elasticsearch•elastic stack

基本概念文档型存储的中间件以JSON格式进行数据存储支持对文档数据的增删改查，即CRUD操作。即CRUD操作。使用了分片和复制技术，支持处理超大规模数据。基于Java编写 Elasticsearch基于Hash模式进行分片集群的配置方式: Elasticsearch天然是分布式的，主副分片自动分配和复制全文检索: Elasticsearch全文检索功能强大，字段自动索引 Elasticsearch适合用于搜索以及存储日志数据(全文检索),但数据并非实时,却决于refresh_interval参数的配置集群中概念集群(cluster): 由一个或多个节点组成, 并通过集群名称与其他集群进行区分节点(node): 单个 ElasticSearch 实例. 通常一个节点运行在一个隔离的容器或虚拟机中索引(index): 在 ES 中, 索引是一组文档的集合分片(shard): 因为 ES 是个分布式的搜索引擎, 所以索引通常都会分解成不同部分, 而这些分布在不同节点的数据就是分片. ES自动管理和组织分片, 并在必要的时候对分片数据进行再平衡分配, ...

elasticsearch7.14以上使用_index_template和_component_template替代_template

发表于2021-09-17|更新于2023-06-16|elasticsearch|elasticsearch•elastic stack

组件模板和索引模板的应用先创建两个组件模板1234567891011121314151617181920212223242526PUT _component_template/test1_template{ "template": { "mappings": { "properties": { "test1": { "type": "text" } } } }}PUT _component_template/test2_template{ "template": { "mappings": { "properties": { "test2&qu...

记录ES的reindex操作

发表于2021-09-16|更新于2024-07-30|elasticsearch|elasticsearch•elastic stack

什么时候需要重建索引索引的mappings发生变更索引的setting发生变更集群内，集群间，需要做数据迁移数据预处理Ingest Pipeline1234567891011121314151617181920212223242526272829PUT _ingest/pipeline/split_xxx{ "processors": [ { "split": { "field": "xxx", "separator": "," }, { "set": { "field": "xxx", "value": "0" } } } ]}# r...

Too many dynamic script compilations within, max[75/5m];

发表于2021-07-18|更新于2023-06-16|elasticsearch|elasticsearch•elastic stack

ResponseError: search_phase_execution_exception: [circuit_breaking_exception] Reason: [script] Too many dynamic script compilations within, max: [75/5m]; please use indexed, or scripts with parameters instead; this limit can be changed by the [script.context.number_sort.max_compilations_rate] setting

es查询忽略大小写

发表于2021-07-15|更新于2023-06-16|elasticsearch|elasticsearch•elastic stack

默认分词器是Standard 标准分词器，是不区分大小写的。在进行数据存储时, 大写的英文字符会转换成小写。但keyword类型属于精准匹配，没法实现大小写区分。 normalizer官方解释第一：normalizer是 keyword的一个属性，类似 analyzer分词器的功能，不同的地方在于：可以对 keyword生成的单一 Term再做进一步的处理。第二：normalizer 在 keyword 类型数据索引化之前被使用，同时在 match 或者 term 类型检索阶段也能被使用。使用方式1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465PUT index{ "settings": { "analysis": { "normalizer": { ...

filebeat采集json日志到es

发表于2021-07-10|更新于2023-06-16|elastic stack日志系统|日志系统•elasticsearch

需求描述使用filebeat从log文件中采集json格式的日志，发送到ES中，并在ES中显示json日志的各字段和数据。问题一：如何让采集Json格式的日志在filebeat.yml文件中进行相应的配置： 12345678910111213141516171819202122232425262728293031323334- type: log enabled: true paths: - E:\testjson.log processors: - script: lang: javascript source: > function process(event) { var message = event.Get("message"); message = message.replace(/\\x22/g,'"'); message = message.replace(/\,-/g,'&...

ELK常用架构及使用场景

发表于2021-07-06|更新于2023-06-16|elastic stack日志系统|日志系统•elasticsearch

ELK 常用架构及使用场景(摘自创始人) 最简单架构在这种架构中，只有一个 Logstash、Elasticsearch 和 Kibana 实例。Logstash 通过输入插件从多种数据源（比如日志文件、标准输入 Stdin 等）获取数据，再经过滤插件加工数据，然后经 Elasticsearch 输出插件输出到 Elasticsearch，通过 Kibana 展示 Logstash 作为日志搜集器这种架构是对上面架构的扩展，把一个 Logstash 数据搜集节点扩展到多个，分布于多台机器，将解析好的数据发送到 Elasticsearch server 进行存储，最后在 Kibana 查询、生成日志报表等。详见图 2。这种结构因为需要在各个服务器上部署 Logstash，而它比较消耗 CPU 和内存资源，所以比较适合计算资源丰富的服务器，否则容易造成服务器性能下降，甚至可能导致无法正常工作。 Beats 作为日志搜集器这种架构引入 Beats 作为日志搜集器。目前 Beats 包括四种： Packetbeat（搜集网络流量数据）； Topbeat（搜集系统、进程和文...

Elasticsearch数据建模

发表于2021-06-17|更新于2023-06-16|elasticsearch|elasticsearch•elastic stack

Elasticsearch数据建模数据建模数据建模是创建数据模型的过程数据模型是对真实世界进行抽象描述的一种工具和方法，实现对现实世界的映射三个过程：概念模型=》逻辑模型=》数据模型数据模型：结合具体的数据库，在满足业务读写性能等需求的前提下，确定最终定义数据建模：功能需求+性能需求逻辑模型（功能需求）实体属性实体之间的关系搜索相关的配置物理模型（性能需求）索引模版分片数量索引Mapping 字段配置关系处理对字段进行建模字段类型： Text vs Keyword Text 用于全文本字段，文本会被Analyzer分词默认不支持聚合分析及排序。需要设置fielddata为true Keyword 用于id,枚举及不需要分词的文本。例如电话号码，email地址，手机号码，邮政编码，性别等适用于Filter(精确匹配)，Sorting和Aggregations 设置多字段类型默认会为文本类型设置成text,并且设置一个keyword的子字段在处理人类语言时，通...