现在的网站越来越狡猾,连招聘网站的信息都懂的把公司的联系方式动态图片化了。还好为了观看方便,没加什么干扰。所以写个脚本来识别还是可以的。虽然到目前为止没发现比较好的 OCR 工具——我指的是可以直接apt-get安装的,有朋友知道哪个比较好的话,欢迎告诉我~

尝试了一下 tesseract-ocr 和 gocr ,还是 gocr 靠谱一点点。所以 apt-get install gocr 安装然后运行下面这个 Perl 脚本:

use ojo;
use 5.010;
g("http://search.buildhr.com/job/581968.html")->dom->charset("UTF-8")->find("div .postjob .padding")->[-1]->find("p")->each(sub{
    my $line = shift;
    my $img_element = $line->at('img');
    if (defined $img_element) {
        my $img_url = $img_element->{src};
        g($img_url)->content->asset->move_to("test.jpg");
        my $seem_str = `gocr test.jpg`;
        chomp($seem_str);
        say join($seem_str, split(/ /, $line->text));
    }
});

不过老是把 7 识别成 _

真是越来越觉得 ojo 好用啊~