三斗室

给squid的snmp增加open_conn输出

22 Jun 2011 Posted in monitor

做反向代理的squid集群监控，在单机维护时，squidclient mgr:server_list里的OPEN CONNS是经常看的一项数据，不过在开启snmp支持后，在mib里却没有找到相关的数据。还一度怀疑是不是cachePeerKeepAlRecv或者cachePeerKeepSent。今天想起来去src里grep了一把源码，顺利的在squid/src/neighbors.c里看到了OPEN CONNS等数据的来源，如下： cstatic void dump_peers(StoreEntry * sentry, peer * peers) { peer *e = NULL; …… for (e = peers; e; e = e->next) { …… storeAppendPrintf(sentry, "OPEN CONNS : %d\n", e->stats.conn_open); …… storeAppendPrintf(sentry, "keep-alive ratio: %d%%\n", percent(e->stats.n_keepalives_recv, e->stats.n_keepalives_sent)); 然后在squid/src/snmp_agent.c里看到了这些数据的snmp输出，如下： cvariable_list * snmp_meshPtblFn(variable_list * Var, snint * ErrP) { variable_list *Answer = NULL; struct in_addr *laddr; int loop, index = 0; char *cp = NULL; peer *p = NULL; int cnt = 0; …… switch (Var->name[LEN_SQ_MESH + 2]) { case MESH_PTBL_NAME: cp = p->name; Answer = snmp_var_new(Var->name, Var->name_length); …… case MESH_PTBL_KEEPAL_R: Answer = snmp_var_new_integer(Var->name, Var->name_length, p->stats.n_keepalives_recv, SMI_COUNTER32); break; case MESH_PTBL_INDEX: Answer = snmp_var_new_integer(Var->name, Var->name_length, index, ASN_INTEGER); break; default: *ErrP = SNMP_ERR_NOSUCHNAME; break; } return Answer; } 一对比，发现确实没有stats.conn_open输出…… 好在这个比较简单，稍微改一下，就能搞出来： 1、修改squid/include/cache_snmp.h如下： cenum { /* cachePeerTable */ …… MESH_PTBL_CONN_OPEN, /*新增这个*/ MESH_PTBL_HOST, MESH_PTBL_END }; 2、修改squid/src/snmp_core.c如下：继续阅读……

mysql测试小工具mybench试用

14 Jun 2011 Posted in testing

小型的mysql测试工具，主要有自带的mysqlslap、super-smack和mybench。嗯，我这里的小型的意思是指工具安装过程简单。 mysqlslap的使用方法遍地都是，就不先详细写了。根据个人偏好写写mybench吧，毕竟是perl的。安装很简单，如下： bashcpanm DBI DBD::mysql Time::HiRes wget http://jeremy.zawodny.com/mysql/mybench/mybench-1.0.tar.gz tar zxvf mybench-1.0.tar.gz cd mybench-1.0 perl MakeFile.PL && make && make install 但是使用就不是太简单了——mysqlslap会自己生成（-a选项）sql，super-smack则带了一个gen-data程序生成数据然后自动导入，但是mybench没有，所以只能自己搞定数据。不过mybench还是自己生成了一个测试模版的脚本在/usr/bin/bench_example，很简单的就知道怎么做了。 example如下： ```perl#!/usr/bin/perl -w 继续阅读……

java的中文支持

10 Jun 2011 Posted in linux

往论坛上传图片，有的图片上有中文字，却显示成方框。求助了一下度娘，快速解决。记录一下：继续阅读……

perl模块Statistics::Descriptive

09 Jun 2011 Posted in perl

今天写基调测试报告，需要从原始的ping延时和丢包率数据中自己计算标准方差以评估波动性（直接运行ping命令可见，不过基调报告里没有）。方差是各个数据与其平均数的差的平方的平均数。标准差（均方差）则是方差的算术平方根。这个时候可以打开excel……不过作为excel只会填文字的人，只好打开CPAN来解决问题了~ perl#!/usr/bin/perl -w use Statistics::Descriptive; use strict; open FH,'<','data'; my $data={}; while(<FH>){ my @F = split; push @{$data->{"快网延时"}}, $F[3]; push @{$data->{"快网丢包"}}, $F[4]; push @{$data->{"森华延时"}}, $F[6]; push @{$data->{"森华丢包"}}, $F[7]; push @{$data->{"帝联延时"}}, $F[9]; push @{$data->{"帝联丢包"}}, $F[10]; } close FH; my $stat = Statistics::Descriptive::Full->new(); foreach my $key (sort keys %{$data}) { $stat->add_data(@{$data->{"$key"}}); print $key."\t".$stat->standard_deviation(),"\n"; $stat->clear(); } 记住一定要clear，不然的话add_data会接着上一次的加，然后数据就错了。继续阅读……

spread试验

09 Jun 2011 Posted in perl

spread还是半年前的时候偶然看到的，一直没有试过。前段时间用gearman收集集群日志时，发现gearman的方式，worker不会知道client来自哪里，一条job只会一个worker来做，比较适合做分布式计算，但相比我最初设想的实时系统管理需求，还是有一定距离。于是重新翻出来spread，感觉可以根据应用系统设置不同的group，然后统一再由一个回收结果的group即可。于是有了如下试验：继续阅读……

tmpfs的inode问题

09 Jun 2011 Posted in linux

一些squid服务器为了强调加速效果，使用tmpfs来做cache_dir。刚开始运行的时候也嗖嗖的，不过没过一两天，mgr:info就看到缓存命中率急剧下降，字节命中率甚至只剩下10%左右！检查了多次配置，绝对没有问题，但同样的url，曾经一分钟几百次的HIT，现在一分钟几百次MISS…… df看，不管是tmpfs，还是logs所在的目录，都才用了不到30%。最后想起来df -i看了下，果然，tmpfs的inode使用率100%了！赶紧remount了一次，解决了问题。但不是根本出路。还是得想办法搞定这个inode。在linux代码说明里找到了关于tmpfs的文档（/usr/src/linux/Documentation/filesystems/tmpfs.txt）： tmpfs has three mount options for sizing: …… nr_inodes: The maximum number of inodes for this instance. The default is half of the number of your physical RAM pages, or (on a machine with highmem) the number of lowmem RAM pages, whichever is the lower. These parameters accept a suffix k, m or g for kilo, mega and giga and can be changed on remount. The size parameter also accepts a suffix % to limit this tmpfs instance to that percentage of your physical RAM: the default, when neither size nor nr_blocks is specified, is size=50% 继续阅读……

用gearman汇总多台服务器的回滚日志

03 Jun 2011 Posted in monitor

gearman其实不是重点，因为我就是抄了一遍perldoc的样例而已。关键在服务器上的log4j日志是回滚的，所以需要配合回滚（猜测log4j的DailyRollingFile回滚方式类似mv resin.log resin.log-ymd && reload，这样在回滚后，FH还在resin.log-ymd上，就读不到新日志了）重启FH。另：tail命令有个参数-F/–follow=name，可以锁定文件名而不是文件描述符，不知道这个功能是怎么做到的？一步一步来：继续阅读……

HTML::Template试用

01 Jun 2011 Posted in perl

给我自己的学习计划做个开头，从html::template开始试用。首先利用上上篇的nmap.pl脚本，提取一些数据，然后展示在页面上。 cgi脚本如下： perl#!/usr/bin/perl -w use HTML::Template; use XML::Simple; use Net::MySQL; #定期执行这个 #system("nmap -n -p 22,5666 10.168.168.0/23 10.168.170.0/24 -oX output.xml"); my $text = XMLin("output.xml"); #读取html模版 my $temp = HTML::Template->new(filename => '../template/html/server.tmpl'); my $localhost = '127.0.0.1'; my @array = (); my $i = 0; my $hash = {}; while ( $text->{host}->[$i] ) { #因为新增了ssh端口扫描，所以xml解析和前例稍有不同 my $ssh_state = $text->{host}->[$i]->{ports}->{port}->[0]->{state}->{state}; my $nrpe_state = $text->{host}->[$i]->{ports}->{port}->[1]->{state}->{state}; my $ip = ref($text->{host}->[$i]->{address}) eq 'ARRAY' ? $text->{host}->[$i]->{address}->[0]->{addr} : $text->{host}->[$i]->{address}->{addr}; my $mac = ref($text->{host}->[$i]->{address}) eq 'ARRAY' ? $text->{host}->[$i]->{address}->[1]->{addr} : '00:1E:C9:E6:E1:7C'; $i++; my $channel = &mysql_query($mac); #将ip按照频道排成列表，每个ip存有ssh和nrpe状态 if ( exists $hash->{$channel} ) { push @{$hash->{$channel}}, { 'IP' => $ip, 'SSH' => $ssh_state, 'NRPE' => $nrpe_state, }; } else { $hash->{$channel}->[0] = { 'IP' => $ip, 'SSH' => $ssh_state, 'NRPE' => $nrpe_state, }; } } #将上面while生成的hash转成HTML::Template认可的array，不过array的单个元素可以是hash foreach my $key( keys %{$hash} ) { my $onechannel = {}; $onechannel->{"CHANNEL"} = $key; my $j = 0; foreach my $ip( @{$hash->{$key}} ) { $onechannel->{"IP_LOOP"}->[$j] = $ip; $j++; } push @array, $onechannel; } #将array传递给之前定义的html模版 #注意：不管是param还是@array里，所有的key必须都在tmpl里使用，冗余也会报错 $temp->param(CHANNEL_LOOP => \@array); #输出成html格式 print "Content-Type: text/html\n\n", $temp->output; #这段没什么说的，根据mac获取频道 sub mysql_query { my $mac = shift; my $mysql = Net::MySQL->new( hostname => $localhost, database => 'myops', user => 'myops', password => 'myops', ); $mysql->query("select channel from myhost where mac='$mac'"); &alert("New server") unless $mysql->has_selected_record; my $a_record_iterator = $mysql->create_record_iterator(); while (my $record = $a_record_iterator->each) { return $record->[0]; }; } #留着后续继续处理 sub alert { print @_,"\n"; } 然后是template文件server.tmpl：继续阅读……

nginx两个小测试(perl_set/image_filter)

30 May 2011 Posted in nginx

第一个测试，关于http_perl_module。之前写过一篇关于nginx忽略大小写的博文，今天被朋友问上门来，url是类似/Upload/Dir/2011/123_D.jpg的形式。如果单纯的lc($r->uri)，得到的url会变成/upload/dir/2011/123_d.jpg，目录是不存在的。所以要稍微改进一下。如下： perl perl_set $url ' sub { my $r = shift; return $1.lc($2) if ($r->uri =~ m/^(.+\/)([^\/]+)$/); return $r->uri; } '; 这样就行了。继续阅读……

nmap扫描结果xml解析脚本

27 May 2011 Posted in monitor

perl#!/usr/bin/perl -w use XML::Simple; use Net::MySQL; system("nmap -n -p 5666 10.1.1.0/23 10.1.3.0/24 -oX output.xml"); my $text = XMLin("output.xml"); my $i = 0; while ( $text->{host}->[$i] ) { my $nrpe = $text->{host}->[$i]->{ports}->{port}->{state}->{state}; #因为在扫描到本机的时候，是没有mac的，所以到本机时不是ARRAY而是HASH my $ip = ref($text->{host}->[$i]->{address}) eq 'ARRAY' ? $text->{host}->[$i]->{address}->[0]->{addr} : $text->{host}->[$i]->{address}->{addr}; my $mac = ref($text->{host}->[$i]->{address}) eq 'ARRAY' ? $text->{host}->[$i]->{address}->[1]->{addr} : '00:1E:C9:E6:E1:7C'; &mysql_query($ip, $mac, $nrpe); $i++; } sub mysql_query { my ($ip, $mac, $nrpe) = @_; my $mysql = Net::MySQL->new( hostname => '10.1.1.25', database => 'myops', user => 'myops', password => 'myops', ); $mysql->query( "insert into myhost (intranet, mac, monitorstatus) values ('$ip', '$mac', '$nrpe')" ); } 小脚本一个，扫描内网网段内存活的机器，获取其MAC地址，以及nrpe端口情况。后期再配合myhost里的system，如果是linux（其实用nmap -O也可以获取system，但是结果不准，耗时还特别长，200台机器花10分钟），但monitorstatus还是closed的，就expect上去安装nrpe，嗯~~ 继续阅读……

续上：合并纯真ip段

20 May 2011 Posted in monitor

上篇提到纯真ip库有很多行是浪费的，比如下面这种：yaml 223.214.0.0 223.215.255.255 安徽省电信 223.216.0.0 223.219.255.255 日本 223.220.0.0 223.220.162.1 青海省电信 223.220.162.2 223.220.162.2 青海省海东地区平安县九歌网吧 223.220.162.3 223.221.255.255 青海省电信 很简单的223.220.0.0-223.221.255.255段，却被拆成了三行。于是在通过起始ip结束ip计算子网之前，还需要合并一下这些ip段。因为涉及ip比对，所以第一反应想到了mysql里有的inet_aton函数，去CPAN上搜了一下，发现有NetAddr::IP::Util模块有inet_aton函数，结果一用，发现居然生成的不是数字……于是从网上找到了pack的办法，如下： ```perl#!/usr/bin/perl -w while(<>){ next unless $_ =~ /^(\S+)\s+(\S+)\s+(\S+)/; my $low = unpack(‘N’,(pack(‘C4’,(split( /./,$1))))); #下面这行是IP::QQWry模块里的写法继续阅读……

从纯真数据库里获取ip列表

19 May 2011 Posted in monitor

首先申明只是一个简单的方式，因为打算的是提取总列表成bind9使用的acl格式，所以不在乎性能问题。第一步、从CZ88.NET下载QQWry数据库，然后运行IP.exe，选择“解压”，然后会在桌面生成一个qqwry.txt，这里就有四十多万行的ip记录。格式如下：起始ip 结束ip 大区域小区域但是这个大区域也不是想像中的那么整齐，比如清华大学宿舍楼也是大区域的…… 好在我们DNS只需要一个大概的南北指向，根据电信占主流的现实，只要取出来联通的，其他都算电信就行了~ 第二步、把起始ip-结束ip改成acl需要的子网掩码格式，这一步用perl完成，全文如下：继续阅读……

链路故障应急处理脚本

12 May 2011 Posted in monitor

话接上篇，继续完成这个perl脚本。花了今天一天的时间，基本定稿如下： ```perl#!/usr/bin/perl -w use Net::Ping::External qw(ping); use Tie::File; use Getopt::Long; 继续阅读……

学习pm和bless的写法

12 May 2011 Posted in perl

考虑到公司环境必须先rsa_auth再su的问题，一般的pssh啊mussh啊sshbatch啊，都不能直接用，决定把上篇脚本里的相关部分抽出来成为一个模块，借机学习一下package和bless的简单概念： ```perl #包名，如果做pm的话，必须和(.*).pm的名字一样 package raocl; use Parallel::ForkManager; use Expect; #Exporter模块是perl提供的导入模块方法的工具 use base ‘Exporter’; #Exporter有两个数组，@EXPORT里存的是模块的sub，@EXPORT_OK里存的是模块的var； #使用模块时只能调用这些数组里有定义的东西 our @EXPORT = qw/new cluster/; #一般模块都有一个new方法来进行初始化定义 sub new { #所有sub传入的第一个参数都是本身，所以要先shift出来，然后才是脚本显式传入的参数 my $class = shift; #将参数转成哈希方式，并返回一个引用； #正规做法应该在这里指定一些必须要有的参数，比如passwd => %args{‘passwd’} || ‘123456’ my $self = {@_}; #bless上面返回的哈希引用到自己，再传递出去；以后在这之外的地方，使用被bless过的$self时自动就关联上new里的数据了。 #这里我写的极简单，看比较正式的模块写发，这里对$class还要用ref();判断是不是引用等 return bless $self,$class; } 继续阅读……

perl的Expect模块

09 May 2011 Posted in perl

手头一批机器，因为历史的原因，有些密码登录、有些密钥登录，有些wheel组免密码su - root、有些又不行。为了统一管理操作，得想办法找一个能适应这四种情况的自动登录方法。继续阅读……

linux系统脚本中的awk一例

06 May 2011 Posted in bash

感谢@snowave童鞋，摘取了/usr/bin/run-parts最后一段的awk内容给我看：继续阅读……

reiserfs和xfs的inode测试

13 Apr 2011 Posted in testing

某应用的碎文件生成太多，大量消耗inode，不得不做迁移调整。原先的使用的NetApp存储，虽然可以调节inode，但是有一个上限，最高就是40000000——说实话真的挺小的啊~~ 一个同样大小的普通服务器ext3文件系统，在没有强行指定的情况下，inode都有将近3个亿，是netapp的7倍。了解了一下ext3文件系统在分区时指定inode最大可用数的情况，大致可以理解为小于可用空间大小/256。详细分析测试情况见：http://blog.wgzhao.com/2008/04/13/how-much-inodes-do-you-need.html，大意是inode个数由block大小和单个inode的字节决定。理论上最小block是1024，实际（采用-N强行指定的话）可能是256左右。继续阅读……

《SUSE Linux Enterprise Desktop System Analysis and Tuning Guide》读书笔记

05 Apr 2011 Posted in linux

这是一本比上篇提到的老书新很多、厚很多的调优指南。虽然至今没用过suse，但同是linux内核，与redhat差距不算太大。目前只打印并看到了systemtap章节，感觉很多内容说的比上本书细致的多，继续做笔记~ 1 General Notes on System Tuning 1.2 Rule Out Common Problems 检查/var/log/warn和/var/log/messages中的异常条目；用top或ps命令检查是否有进程吃了太多CPU和内存；通过/proc/net/dev检查网络问题；用smartmontools检查硬盘IO问题；确认后台进程都是在系统负载较低的时候运行的，可以通过nice命令调整其优先级；一台服务器运行太多使用相同资源的服务的话，考虑拆分；升级软件。 2 System Monitoring Utilities 2.1 Multi-Purpose Tools 2.1.1 vmstat 第一行输出显示的从最近一次重启以来的平均值各列说明： r 运行队列中的进程数。这些进程等待cpu的空闲以便执行。如果该数值长期大于cpu核数，说明cpu不足； b 等待除了cpu以外的其他资源的进程数。通常是IO不足； swpd 已用swap空间，单位KB； free 未用内存空间，单位KB； inact 可以回收的未用内存空间，只有当使用-a参数时才显示——建议使用该参数； active 使用中且没有回收的内存空间，同样只在-a时显示； buff 内存中的文件缓冲空间；相反，-a时不显示； cache 内存中的页缓存空间；-a不显示； si 每秒从内存移动到swap的数据大小，单位KB； so 每秒从swap移动到内存的数据大小，单位KB，以上两个数长期偏大的话，机器需要加内存； bi 每秒从块设备中获取的块数量——注意swap也是块设备，包含在内！ bo 每秒发送到块设备的块数量，同样包括swap； in 每秒中断数，数值越大说明IO级别越高； cs 每秒文本交换数，这个代表内核从内存中某进程中提取替换掉另一个进程的可执行代码——茫然？？ us 用户空间的cpu使用率； sy 系统空间的cpu使用率； id cpu时间中的空闲比——就算它是0，也不一定就是什么坏事，还得看r和b两个数值来判断； wa 如果这个数不等于0，那说明系统吞吐在等待IO。这或许是不可避免的。比如如果一个文件是第一次被读取（即没有缓存），那同时的后台写必然挂起。这个数也是硬件瓶颈的一个指标（网络或者磁盘）。最后，还有可能是虚拟内存管理上的问题； st cpu用在虚拟管理上的比例。 2.1.2 System Activity Information: sar and sadc sadc其实就是在/etc/cron.d中添加的任务。原始数据写入/var/log/sa/saDD中，报告数据写入/var/logs/sar/sarDD中。默认配置，数据每10分钟一收集；报告每6小时一收集。详见/etc/sysstat/sysstat.cron；数据收集脚本是/usr/lib64/sa/sa1；数据报告脚本是/usr/lib64/sa/sa2；有必要的话可以自己用这两个脚本收集性能数据。 sar -f指定特定的数据文件出报告 sar -P指定某一个CPU出报告 sar -r显示内存信息：kbcommit和%commit显示了当前工作负载下可能需要的最大内存（含swap）； sar -B显示内核页信息：majflt/s显示了每秒钟有多少页从硬盘（含swap）读入内存，这个数太大意味着系统很慢，而且内存不足；%vmeff显示了页扫描(pascand/s)及其相关的缓冲重用率(pgsteal/s),用以衡量页面回收的效率，数值接近100说明所有so的页都重用了，接近0说明没有被扫描的页，这都很好，但不要在0-30%之间。 sar -d显示块设备信息，最好加上-p显示设备名； sar -n显示网络信息，包括DEV/EDEV/NFS/NFSD/SOCK/ALL 2.2 System Information 2.2.1 iostat -n显示nfs； -x显示增强型信息； 2.2.3 pidstat -C “top”显示命令名中包括top字符串的目标。 2.2.5 lsof 无参数：打开的所有文件 -i：网络文件 2.2.6 udevadm 本工具只有root可以使用 2.3 Processes 2.3.2 ps 显示具体某进程：ps -p $(pidof ssh) 显示格式和排序：ps ax –format pid,rss,cmd –sort rss 显示单独进程：ps axo pid,$cpu,rss,vsz,args,wchan,etime 显示进程树：ps axfo pid,args 2.3.4 top 默认每2秒钟一刷新；显示一次即退出：-n 1 shift+p——以CPU使用率排列(默认)； shift+m——以常驻内存排列； shift+n——以进程号排列； shift+t——以时间排列； 2.4 Memory 2.4.1 free free -d 1.5——每1.5秒一刷新数据 2.4.3 smaps 在/proc/${pid}/smaps中看到的是进程当前的内存页数量，即除掉共享内存以外的真正进程使用的内存大小。 2.5 Networking 2.5.1 netstat -r路由；-i网卡；-M伪装链接；-g广播成员；-s信息 2.5.2 iptraf iptraf -i eth0 -t 1 -B -L iptraf.log eth0网卡一分钟内的信息，后台收集，记入iptraf.log中。 2.6 The /proc File System /proc/devices 可用设备 /proc/modules 已加载内核模块 /proc/cmdline 内核命令行 /proc/meminfo 内存使用详细信息 /proc/config.gz 内核当前运行配置的压缩文件详细说明见/usr/src/linux/Documentation/filesystems/proc.txt 执行的进程和库文件以及他们在内存的地址信息见/proc/***/maps文件。继续阅读……

《Tuning Red Hat Enterprise Linux on IBM server xSeries Servers》读书笔记

01 Apr 2011 Posted in linux

一本很老的书，还是RHEL3时代的，在陪GF的空隙一点点读完，把笔记整理一下发在这里，只包括自己不知道或者说容易忘记的内容，不代表调优指南。 1 Tuning the operating system 1.1 Disabling daemons 关闭不必要的后台进程。RHEL3中，默认启动的后台进程有： apmd 高级电源管理 autofs 自动挂载 cups 通用UNIX打印机系统 hpoj 惠普打印机支持 isdn 调制解调器 netfs nfslock portmap NFS支持 pcmcia PCMCIA支持 rhnsd 自动升级 sendmail 邮件转发程序 xfs 桌面程序 1.2 Shutting down the GUI runlevel: 0 halt立刻关机immediately shut down 1 single单人 2 multi-user without NFS（这个说明和一般的说法不太一样~） 3 full multi-user 5 X11 6 reboot 修改/etc/inittab如下： id:3:initdefault: #runlevel #4:2345:respawn:/sbin/mingetty tty4 #关闭多余控制台注意：留3个，以免在被攻击的时候自己反而进不去了！ 1.4 Changing kernel parameters /proc/loadavg 系统负载1/5/15分钟 /proc/stat 内核状态：进程/swap/磁盘IO /proc/cpuinfo CPU信息 /proc/meminfoo 内存信息 /proc/sys/fs/* linux可用文件数及磁盘配额 /proc/sys/kernel/* 进程号范围/系统日志级别 /proc/sys/net/* 网络细节 /proc/sys/vm/* 内存缓冲管理 1.7 Tuning the processor subsystem CPU超线程注意事项: 注意使用SMP的kernel 实际CPU数越多，超线程意义越小： 2核：提升15-25% 4核：提升1-1% 8核：提升0-5% 1.8 Tuning the memory subsystem 如果决定调整/proc/sys/vm/*的参数，最好一次只调整一个。 vm.dbflush前3个参数分别为： nfract 在buffer被转存到disk前允许的最大buffer比率 ndirty 将buffer转到disk时一次允许操作最大的buffer数 nfract_sync 转存时允许buffer中dirty数据的最大比率 vm.kswapd tries_base 一次swap传输时的pages数。如果swapping较大，适当增加该值 tries_min kswapd运行时交换的pages的最小数 swap_cluster kswapd一次写入pages的数。太小会增加IO次数，太大又要等待请求队列 1.9 Tuning the file subsystem 磁盘访问速度是ms级别的，而内存是ns，PCI是us。磁盘IO是最关键的问题服务器举例：文件/打印服务器：所有数据从磁盘读取数据库服务器：大量IO，在内存和磁盘间交换数据磁盘IO不是最关键的问题服务器举例：邮件服务器：网络状况才是最关键的。 web服务器：网络和内存才是最关键的….. 1.9.5 The swap partition 创建多个swap区有助于提升swap性能通常情况，多个swap采用顺序读写，即只有/etc/fstab中排名在前的swap区耗尽的情况下，才会使用下一个swap区；可以在fstab中定义优先级，类似”/dev/sda2 swap swap sw,pri=5 0 0”的格式；相同优先级的swap区，系统会并发使用，不同优先级之间依然要等待耗尽！——另外，如果相同优先级的swap区有一个性能较差，会连带影响整个swap性能。 1.10 Tuning the network subsystem 网络问题经常会导致其他伴生问题。比如：块大小太小会给CPU利用率带来显著影响；TCP连接数过多会带来内存使用率的急速上升…… 经常被打开的net.ipv4.tcp_tw_reuse和net.ipv4.tcp_tw_recycle的作用：缓存TCP交互中的客户端信息，包括交互时间、最大段大小，阻塞窗口。详见RFC1644。 net.ipv4.tcp_fin_timeout可以缩短TCP建连时最后发送FIN序列的时间，以便快速释放内存提供给新进连接请求。但是修改这个的时候也要谨慎，因为由此导致的死套接字数量可能引起内存溢出！ net.core.wmem_max/net.core.rmem_max定义在每个TCP套接字创建时划分的内存大小，推荐设置8MB。 net.ipv4.tcp_wmem/net.ipv4.tcp_rmem的最后一个数字不能大于上面core的定义。 net.ipv4.tcp_max_syn_backlog队列存放半连接。这些连接可能是因为客户端的连接异常，也可能仅仅是因为服务器负载太高导致。除了半连接，这个配置对防范拒绝服务攻击也有效。 net.ipv4.ipfrag_low_thresh/net.ipv4.ipfrag_high_thresh规范ip碎片，一旦触底，内核会开始丢包。这对于NFS和samba等文件服务器很重要，建议设置为256和384MB。 2 Tuning tools 2.3 top STAT:S=SLEEPING,R=RUNNING,T=TRACED/STOPPED,D=INTERRUPTIBLE SLEEP,Z=ZOMBIE 2.3.1 Process priority and nice levels 优先级从19（最低）到-19（最高），默认是0。启动进程时指定nice -n 19 command，启动后改变renice 19 command 2.4 iostat tps:transfers per second,多个单独的IO请求，可以组合在一次transfer请求中。 Blk_read/s,Blk_wrtn/s:每秒的读写块个数。block大小和transfer大小一样各不相同。一般是1、2、4KB，采用如下命令查看：dumpe2fs -h /dev/sda1 | grep -F ‘Block Size’ 2.5 vmstat Process：r:等待运行的进程数，b:不可中断睡眠中的进程数 Swap：单位是KBps CPU：us:非内核时间，包括user和nice，id:在linux2.5.41前，这个数值包括了IOwait时间在内…… 2.11 ulimit -H和-S分别是hard和soft，开机启动指定的话，修改/etc/security/limits.conf即可。 2.12 mpstat 用来在多CPU的机器上查看每个CPU的情况。继续阅读……

php编译参数问题一例

31 Mar 2011 Posted in php

某php应用在给图片加水印的时候，显示的中文全都成了乱码，而开发同事在它本机(ubuntu)上apt安装的lamp上显示没有问题。仔细检查过了从env到encoding到phpinfo，都没有发现问题——都符合GD函数imagettftext()的utf8要求。还好有google，发现一个类似的文章，提出是php的编译参数中有一个–enable-gd-jis-conv，会把ttf字库中非标准拉丁文的部分，按照日文顺序映射，imagettftext()的默认编码其实被隐形指定成了日文编码euc-jp，中文自然就不正常了！然后赶紧重新看phpinfo，真有这个参数。重新编译php，随后恢复正常显示了。编译参数还真是不能大意啊～～继续阅读……

awk单行命令

28 Mar 2011 Posted in bash

一眨眼又几天没更新，中午在Q群里聊到一个单行命令，随手记录下。 A需求：某文件如下 aaa bbb aaa aaa ccc aaa ddd …… 通过命令改成如下格式： 1 bbb 3 5 ccc 7 ddd …… 方法如下： bash echo -en 'aaa\nbbb\naaa\naaa\ndddd'|awk 'BEGIN{tag=1}{if(/aaa/){print tag;tag+=2}else{print}}' 或者更短一点： bash echo -en 'aaa\nbbb\naaa\naaa\ndddd'|awk 'BEGIN{tag=1}{if(/aaa/){$0=tag;tag+=2};print}' B需求： aaa不是文件一行的全部内容，而只是一部分。方法如下： bash echo -en 'aaa\nbbb\naaa\nfdaaafdaaa\ndddd'|awk 'BEGIN{tag=1}{gsub(/aaa/,tag) && tag+=2;print}' 以上三种，凯的perl版本分别如下： perl perl -nale 'BEGIN{$tag = 1}if(/aaa/){print $tag;$tag+=2}else{print}' perl -nalpe 'BEGIN{$tag = 1};$_=$tag and $tag+=2 if /aaa/' perl -nalpe 'BEGIN{$tag = 1};$tag+=2 if s/aaa/$tag/' 继续阅读……

BSD上的流量监控脚本

21 Mar 2011 Posted in monitor

之前有过一篇linux上的流量监控脚本的博文，是利用procfs进行数据运算。但BSD上的procfs和linux有所不同，它只包含了进程的信息，没有系统的统计。所以只能通过其他方法。 linux上另一种获取网卡总流量的方法是ifconfig命令，这个命令其实也是读取proc；但是BSD上的ifconfig输出里也没有…… 不过BSD上倒不是没法查流量上，事实上另外有两个命令，在实时观测中更加好用，一个是systat -if 1，几乎就是一个无色版的iptraf；另一个是netstat -idbhI bce0 1。解释一下，systat是bsd上用来查看系统信息的一个超级利器，-if是-ifstat的简写，类似还有-vmstat等等。netstat是专门用来显示网络状态的，最常用的就是-ant显示所有的TCP链接，这里用的idbhI，表示interface、drop、bytes、human，也就是用方便读取的格式输出某网卡的流量值。但是这两个命令，都是持续输出，必须接到^C信号才会退出运行。在实时管理时很好用，在做监控脚本的时候，就弄巧成拙了…… 好在netstat参数多，调整一下，使用idbnf参数（family）即可输出网卡总流量值，然后按照linux上一样的思路进行计算了。最终脚本如下：继续阅读……

gearman单机试验

18 Mar 2011 Posted in perl

想把前端缓存几十台服务器的访问日志数据计入数据库中，以便核算各频道带宽。按照一般流量统计的惯例，在服务器上设定crontab每5分钟rotate一次access.log。但是想到一个问题——当A服务器select了数据库里的数据但还没来得及update时，B服务器也开始执行任务select数据来了，最后的结果就不准确了——我相信这个问题对coder来说很低级，不过我是op，搞不来…… 继续阅读……

linux小报错一例

17 Mar 2011 Posted in linux

需要给某台服务器加内存，准备关机的时候，却一直报错。考虑直接断电危害比较大，还是找找原因，报错如下： shutdown: timeout opening/writing control channel /dev/initctl init: timeout opening/writing control channel /dev/initctl 从messages日志里没有发现任何附加信息。只能求助百度。好在解答很多：是原有的initscripts和SysVinit找不到了导致的。传上去initscripts-8.45.19.EL-1.x86_64.rpm和SysVinit-2.86-14.x86_64.rpm两个包，rpm -ivh安装。重新poweroff还是报错；但强制-f跳过shutdown过程后，成功了。稍后再启动设备，试着再敲一次poweroff，这次就不报错，成功关机了。继续阅读……

squid/varnish/ats简单测试

15 Mar 2011 Posted in CDN

简单的试试varnish和apache traffic server。跟squid进行一下对比。介于varnish和ats都是出现不太久的东西（至少是开源流行不长），选择其最新开发版本测试，正巧都是2.15版。呵呵~ varnish配置文件，只修改了backend到具体某台nginx发布点上。其他都是反向代理缓存的标配。（可参考张宴博客http://blog.s135.com和varnish权威指南http://linuxguest.blog.51cto.com/195664/354889） ats说明更少，从目前的资料看，修改了records.config中的监听，cache.config遵循源站未改，remap.config添加了map一条，绑定域名到同一台nginx上。注：varnish和ats都没有修改缓存路径，即分别为var/varnish/varnish.cache和var/trafficserver，都是磁盘。继续阅读……