ElasticSearch 单个节点监控

  • 时间:
  • 浏览:1

2、nodes-stats

3、ES监控指标

memory 统计值展示了 Lucene 段另一方用掉的内存大小。 这里包括底层数据形状,比如倒排表,字典,和布隆过滤器等。可不都能不能 的段数量会增加那此数据形状带来的开销,你這個内存使用量也不三个 方便用来衡量开销的度量值。

OSProcess 次责基本是自描述的,可不都能不能 在细节中展开讲解。它们列出来基础的资源统计值,比如 CPU 和负载。OS 次责描述了整个操作系统,而 Process 次责只显示 Elasticsearch 的 JVM 系统应用应用程序使用的资源情况报告。

集群健康监控是对集群信息进行宽度的概括,节点统计值 API 提供了集群中每个节点的统计值。节点统计值或多或少或多或少,在监控的事先仍需用亲戚亲戚许多人清楚那此指标是最值得关注的。

集群健康监控都不能参考这篇文章:ElasticSearch 集群监控

得到:

heap_used_percent 指标是值得关注的三个 数字。Elasticsearch 被配置为当 heap 达到 75% 的事先之前 开始了了 GC。可能你的节点三个 劲 >= 75%,你的节点正指在 内存压力 情况报告。这是个危险信号,不远的未来可能都有慢 GC 要三个 劲出现了。

节点名是三个 UUID,里面列举了或多或少或多或少指标,下面讲解下:

1、nodes-info

这里的一系列的系统应用应用程序池,大多数让人忽略,也不有一小次责还是值得关注的:

里面是我可能简写了或多或少或多或少数据事先的返回值,也不指标还是或多或少或多或少,或多或少是或多或少常规的指标,对于监控来说,没必要拿取。从里面亲戚亲戚许多人都不能主要关注以下那此指标:

那此都有非常有用的指标,不过通常在你的监控技术栈里可能都测量好了。统计值包括下面那此:

把驱逐数指标作为三个 粗略的参考。可能你都看数字很大,检查一下你的过滤器,确保亲戚许多人都有正常缓存的。不断驱逐着的过滤器,哪怕都指在在很小的段上,效果也比正确缓存住了的过滤器差或多或少或多或少。

执行上述命令都不能获取所有 node 的信息

节点统计值 API 可通过如下命令获取:

jvm 次责包括了运行 Elasticsearch 的 JVM 系统应用应用程序或多或少很关键的信息。 最重要的,它包括了垃圾回收的细节,这对你的 Elasticsearch 集群的稳定性有着重大影响。

可能 heap 使用率三个 劲 >=85%,你就麻烦了。Heap 在 90–95% 之间,则面临可怕的性能风险,此时最好的情况报告是长达 10–150s 的 GC,最差的情况报告也不内存溢出(OOM)异常。

转载请注明地址:http://www.54tianzhisheng.cn/2017/10/18/ElasticSearch-nodes-metrics/

fetch 统计值展示了查询补救的后一半流程(query-then-fetch 里的 fetch )。可能 fetch 耗时比 query 还多,说明磁盘较慢,可能获取了可不都能不能 文档,可能可能搜索请求设置了可不都能不能 的分页(比如, size: 111500 )。

Elasticsearch 在组织组织结构维护了系统应用应用程序池。 那此系统应用应用程序池合作方式方式者完成任务,有必要搞笑的话相互间总要传递任务。通常来说,你不需用配置可能调优系统应用应用程序池,不过查看它们的统计值有事先还是有用的,都不能洞察你的集群表现咋样。

不过,驱逐数是三个 比较慢评定的指标。过滤器是在每个段的基础上缓存的,而从三个 小的段里驱逐过滤器,代价比从三个 大的段里要廉价的多。有可能你有很大的驱逐数,也不它们都指在在小段上,也就原应分析那此对查询性不能很小的影响。

每个系统应用应用程序池会列出已配置的系统应用应用程序数量( threads ),当前在补救任务的系统应用应用程序数量( active ),以及在队列中等待补救的任务单元数量( queue )。

还列出了索引操作耗费的时间,正在索引的文档数量,以及删除操作的同类统计值。

这次责列出了你這個节点上所有索引的聚合过的统计值 :

jvm 次责首先列出或多或少和 heap 内存使用有关的常见统计值。让人都看几个 heap 被使用了,几个被指派了(当前被分配给系统应用应用程序的),以及 heap 被允许分配的最大值。理想情况报告下,heap_committed_in_bytes 应该等于 heap_max_in_bytes 。可能指派的大小更小,JVM 最终会被迫调整 heap 大小——这是三个 非常昂贵的操作。可能你的数字不相等,阅读 堆内存:大小和交换 学习咋样正确的配置它。

可能队列中任务单元数达到了极限,新的任务单元会之前 开始了了被拒绝,让人在 rejected 统计值上都看它反映出来。这通常总要你的集群在或多或少资源上碰到瓶颈的信号。可能队列满原应分析你的节点或集群在用最高宽度运行,但依然跟不上工作的蜂拥而入。