在2013年,我还在人人网工作的时候,曾经做过一次Nginx性能压力测试,其中一项是access_log配置的影响,那是我第一次知道原来打日志这事儿在极限情况下对服务性能有这么大的影响。当时的原始记录见:Nginx 万兆网络环境测试 继续阅读……
01 Jul 2020 Posted in logstash
在2013年,我还在人人网工作的时候,曾经做过一次Nginx性能压力测试,其中一项是access_log配置的影响,那是我第一次知道原来打日志这事儿在极限情况下对服务性能有这么大的影响。当时的原始记录见:Nginx 万兆网络环境测试 继续阅读……
30 Jun 2020 Posted in 产品设计
29 May 2020 Posted in logstash
上一篇讲logscape和logiq,虽然logscape开源了,但是在开源届其实没掀起什么浪花。开源届在云原生日志方面,目前主要是grafana loki项目引人注目。那这一篇稍微讲讲loki,以及loki和上篇的logscape-ng(fluidity)的设计区别。 继续阅读……
28 May 2020 Posted in logstash
作为日志产品的PM,跟进国内外日志产品动向是个长期工作。这几天翻新一些历史记录,发现logscape自2017年开源以来,突然2019年10月又更新了一会。于是顺着翻翻logscape的github账号,起了兴致来写点文字。 继续阅读……
09 Dec 2019 Posted in monitor
我们之前看的比较多的运维监控领域的论文,都是计算机、网络、算法方面的研究。偶然的机会,看到一篇管理学方面的研究,来自德国斯图加特大学工业工程学院,通过访谈法的多案例研究,分析分布式系统观测和监控的现状和需求。 继续阅读……
23 Sep 2019 Posted in aiops
从上一篇提到的《软件学报》上的综述文章开始,这段时间顺着引用又陆续看了一些日志管理方面的论文。这里摘录一些论文的数据和结论,还都挺有意思的。 继续阅读……
25 Jun 2019 Posted in aiops
在日志分析领域,如何从非结构化的原始日志文本转换成结构化的字段参数值,一直是非常重要而又麻烦的工作。 继续阅读……
22 May 2019 Posted in aiops
作为运维人员,大家可能已经习惯了出问题的时候,找日志,看日志,或者打包日志发给研发。那么,大家有没有想过,在软件研发人员的角度,可以怎么理解日志的作用呢——尤其是目前研发人员主导监控埋点,指标监控似乎也要亲研发远运维的情况下,日志系统的未来会是什么样子呢? 继续阅读……
22 Mar 2019 Posted in logstash
时隔一年没有更新,日志的模式发现,已经变成了大大小小各家厂商的标配功能。前几天看到阿里云日志服务,也刚刚支持了相关特性。而且从系统设计层面来说,有些想法蛮不错的,这里给大家介绍一下。 继续阅读……
23 Nov 2017 Posted in logstash
《山寨一个 Splunk 的事件模式功能》 和 《日志分析的模式发现功能实现(2)-sumologic》 前两篇,已经分别讲过了商业产品老大splunk、开源项目老大ELK、云服务老大sumologic分别的实现做法。除了他们以外,还有一些其他实现,这次一并讲完。 继续阅读……
09 Nov 2017 Posted in logstash
《山寨一个 Splunk 的事件模式功能》里我们曾经介绍了splunk里的模式功能,以及如何使用ELK做一个简单的模拟。 继续阅读……
31 May 2017 Posted in 产品设计
智能运维平台的内核驱动力来自数据(日志和指标)分析。从广义范畴来说,所有可以用作数据处理的软件系统,都可以用来构建这个平台。从远古时代的awstats到piwik,到人手一个的hadoop集群(确实没有更抽象具体的运维向子产品),到目前最流行的ELK,包括新近的基于PostgreSQL搞的TimeseriesDB,基于Solr搞的Rocana等等。 继续阅读……
15 Nov 2016 Posted in
日志分析是 IT 运维领域非常重要的一部分工作。甚至可以说,在平台化、模块化、服务化盛行的今天,这部分工作的重要性已经逼近传统的设备监控。不过日志由于来源、使用者、管理者都比设备指标要复杂,导致日志分析的功能需求,也庞大很多。在这些庞大的,或者说『泥沙俱下』的功能需求中,有那么一些然并卵的,或许因为听起来很炫酷,或许因为想延续过去的使用习惯,今天因为出差到外地,难得有空放松下,决定吐槽几个这种然并卵的功能。 继续阅读……
19 Aug 2016 Posted in testing
rally 工具是 Elastic 官方开源的针对性性能压测工具。目前 Elasticsearch 的 nightly performance report 就是由 rally 产生的。对自己在做 ES 源码修改,或者ES 应用调优的人来说,通过 rally 验证自己的修改效果,是一件很需要且容易的事情。 继续阅读……
21 Jul 2016 Posted in elasticsearch
在上一篇文章的基础上,其实 Elasticsearch 从 2.0 以后,还新增了另一种聚合方式,叫 sampler。这个聚合的作用,是在每个分片上,只采样部分文档出来继续后续统计。 继续阅读……
18 Jul 2016 Posted in logstash
之前我曾经讲过一个简单的在 ELK 中山寨 Splunk 的『显示来源』功能的办法。这次我们玩个更有难度的、当然依然只是山寨式功能的新东西:『事件模式』功能。 继续阅读……
07 Jul 2016 Posted in logstash
Kibana 4.x 在服务器端采用了 hapi.js 框架开发。虽然目前依然没有认证和授权的插件出来(官方 Kibana 的 shield 插件应该只是做了一个认证,授权部分是由 ES 本身的 shield 插件完成的)。不过既然叫框架嘛,自然就是有不少扩展可用。本文简要介绍一下 hapi.js 框架的认证授权插件的用法。有兴趣的读者可以自己稍微改造一下,就能让 Kibana 也有认证授权功能了。 继续阅读……
04 Apr 2016 Posted in elasticsearch
我们在使用 ELK 的时候,使用 Lucene querystring 语法的机会,远超过使用 Elasticsearch 的 query DSL。毕竟在搜索框里写语法比自己拼 JSON 简单多了。 继续阅读……
01 Apr 2016 Posted in monitor
我们都很习惯在压测 nginx 等服务的时候,利用 systemtap 完成 flamegraph 火焰图来看具体哪个函数占用 CPU 资源过多了。那么,对 Java 实现的 elasticsearch,有没有类似办法呢? 继续阅读……
19 Mar 2016 Posted in monitor