日志输出的耗时,大家关注过么?

01 Jul 2020 Posted in  logstash

在2013年,我还在人人网工作的时候,曾经做过一次Nginx性能压力测试,其中一项是access_log配置的影响,那是我第一次知道原来打日志这事儿在极限情况下对服务性能有这么大的影响。当时的原始记录见:Nginx 万兆网络环境测试 继续阅读……


一个有趣的安全分析场景DSL设计

30 Jun 2020 Posted in  产品设计

NEC美国实验室是智能运维领域我长期在关注的一个组织。日志异常检测方面的LogMine和LogLens都出自该实验室。 继续阅读……


云原生日志的趋势(2):logscape和loki

29 May 2020 Posted in  logstash

上一篇讲logscape和logiq,虽然logscape开源了,但是在开源届其实没掀起什么浪花。开源届在云原生日志方面,目前主要是grafana loki项目引人注目。那这一篇稍微讲讲loki,以及loki和上篇的logscape-ng(fluidity)的设计区别。 继续阅读……


云原生日志的趋势(1):logscape和logiq

28 May 2020 Posted in  logstash

作为日志产品的PM,跟进国内外日志产品动向是个长期工作。这几天翻新一些历史记录,发现logscape自2017年开源以来,突然2019年10月又更新了一会。于是顺着翻翻logscape的github账号,起了兴致来写点文字。 继续阅读……


监控指标异常检测之KDE

18 Dec 2019 Posted in  aiops

之前写日志异常检测的文章比较多,今天稍微有空,写写指标异常检测吧。 继续阅读……


运维监控领域的访谈案例研究

09 Dec 2019 Posted in  monitor

我们之前看的比较多的运维监控领域的论文,都是计算机、网络、算法方面的研究。偶然的机会,看到一篇管理学方面的研究,来自德国斯图加特大学工业工程学院,通过访谈法的多案例研究,分析分布式系统观测和监控的现状和需求。 继续阅读……


SPL指令的元素周期表

13 Nov 2019 Posted in  产品设计

我们都知道化学元素周期表是一项人类历史上的伟大发明。周期表形式生动,印象深刻。 继续阅读……


日志管理领域研究现状(2)

23 Sep 2019 Posted in  aiops

从上一篇提到的《软件学报》上的综述文章开始,这段时间顺着引用又陆续看了一些日志管理方面的论文。这里摘录一些论文的数据和结论,还都挺有意思的。 继续阅读……


sequencer.io项目介绍

25 Jun 2019 Posted in  aiops

在日志分析领域,如何从非结构化的原始日志文本转换成结构化的字段参数值,一直是非常重要而又麻烦的工作。 继续阅读……


软件工程角度的日志分析领域研究现状

22 May 2019 Posted in  aiops

作为运维人员,大家可能已经习惯了出问题的时候,找日志,看日志,或者打包日志发给研发。那么,大家有没有想过,在软件研发人员的角度,可以怎么理解日志的作用呢——尤其是目前研发人员主导监控埋点,指标监控似乎也要亲研发远运维的情况下,日志系统的未来会是什么样子呢? 继续阅读……


聊聊主机热力图的背后

04 Apr 2019 Posted in  产品设计

今天有点空,聊个IT监控系统中常见的小细节:主机热力图。 继续阅读……


日志分析的模式发现功能实现(4)-阿里云SLS

22 Mar 2019 Posted in  logstash

时隔一年没有更新,日志的模式发现,已经变成了大大小小各家厂商的标配功能。前几天看到阿里云日志服务,也刚刚支持了相关特性。而且从系统设计层面来说,有些想法蛮不错的,这里给大家介绍一下。 继续阅读……


日志分析的模式发现功能实现(3)-其他厂商

23 Nov 2017 Posted in  logstash

《山寨一个 Splunk 的事件模式功能》《日志分析的模式发现功能实现(2)-sumologic》 前两篇,已经分别讲过了商业产品老大splunk、开源项目老大ELK、云服务老大sumologic分别的实现做法。除了他们以外,还有一些其他实现,这次一并讲完。 继续阅读……


日志分析的模式发现功能实现(2)-sumologic

09 Nov 2017 Posted in  logstash

《山寨一个 Splunk 的事件模式功能》里我们曾经介绍了splunk里的模式功能,以及如何使用ELK做一个简单的模拟。 继续阅读……


DSL设计之数据管道与并行处理

09 Jun 2017 Posted in  产品设计

上一篇文章里,我试图论证了一个观点:在日志分析场景下的DSL设计,宜采用数据管道风格。 继续阅读……


从DSL扯开去

31 May 2017 Posted in  产品设计

智能运维平台的内核驱动力来自数据(日志和指标)分析。从广义范畴来说,所有可以用作数据处理的软件系统,都可以用来构建这个平台。从远古时代的awstats到piwik,到人手一个的hadoop集群(确实没有更抽象具体的运维向子产品),到目前最流行的ELK,包括新近的基于PostgreSQL搞的TimeseriesDB,基于Solr搞的Rocana等等。 继续阅读……


2016 年度个人总结

30 Dec 2016 Posted in 

老习惯,一年年底给自己做一个总结。 继续阅读……


日志分析中 6 个常见但没啥用的功能

15 Nov 2016 Posted in 

日志分析是 IT 运维领域非常重要的一部分工作。甚至可以说,在平台化、模块化、服务化盛行的今天,这部分工作的重要性已经逼近传统的设备监控。不过日志由于来源、使用者、管理者都比设备指标要复杂,导致日志分析的功能需求,也庞大很多。在这些庞大的,或者说『泥沙俱下』的功能需求中,有那么一些然并卵的,或许因为听起来很炫酷,或许因为想延续过去的使用习惯,今天因为出差到外地,难得有空放松下,决定吐槽几个这种然并卵的功能。 继续阅读……


Elastic 官方压测工具 rally 试用

19 Aug 2016 Posted in  testing

rally 工具是 Elastic 官方开源的针对性性能压测工具。目前 Elasticsearch 的 nightly performance report 就是由 rally 产生的。对自己在做 ES 源码修改,或者ES 应用调优的人来说,通过 rally 验证自己的修改效果,是一件很需要且容易的事情。 继续阅读……


elasticsearch 的 sampler 聚合

21 Jul 2016 Posted in  elasticsearch

在上一篇文章的基础上,其实 Elasticsearch 从 2.0 以后,还新增了另一种聚合方式,叫 sampler。这个聚合的作用,是在每个分片上,只采样部分文档出来继续后续统计。 继续阅读……


山寨一个 Splunk 的事件模式功能

18 Jul 2016 Posted in  logstash

之前我曾经讲过一个简单的在 ELK 中山寨 Splunk 的『显示来源』功能的办法。这次我们玩个更有难度的、当然依然只是山寨式功能的新东西:『事件模式』功能。 继续阅读……


hapi.js 框架的认证授权插件示例

07 Jul 2016 Posted in  logstash

Kibana 4.x 在服务器端采用了 hapi.js 框架开发。虽然目前依然没有认证和授权的插件出来(官方 Kibana 的 shield 插件应该只是做了一个认证,授权部分是由 ES 本身的 shield 插件完成的)。不过既然叫框架嘛,自然就是有不少扩展可用。本文简要介绍一下 hapi.js 框架的认证授权插件的用法。有兴趣的读者可以自己稍微改造一下,就能让 Kibana 也有认证授权功能了。 继续阅读……


Lucene 查询中的距离查询(proximity query)

04 Apr 2016 Posted in  elasticsearch

我们在使用 ELK 的时候,使用 Lucene querystring 语法的机会,远超过使用 Elasticsearch 的 query DSL。毕竟在搜索框里写语法比自己拼 JSON 简单多了。 继续阅读……


用火焰图看 elasticsearch 的资源占用

01 Apr 2016 Posted in  monitor

我们都很习惯在压测 nginx 等服务的时候,利用 systemtap 完成 flamegraph 火焰图来看具体哪个函数占用 CPU 资源过多了。那么,对 Java 实现的 elasticsearch,有没有类似办法呢? 继续阅读……


机器战胜人类了,伺候机器的运维呢?

19 Mar 2016 Posted in  monitor

2016 年 3 月最火爆的新闻,莫过于谷歌的 alphago 机器 4:1 大胜李世乭了。一时间各界议论纷纷,我的前同事,运维界非著名段子手 @orroz 在自己微博上写了两段话: 继续阅读……