MisterY

There are always people or things that need to be remembered

0%

​ 最近在做一个自动化登录系统的脚本,网站有简单的纯数字验证码,使用tesseract-ocr识别发现效果正确率不佳,在不进行额外的ocr训练的情况下,提高图片识别正确率。

一、tesseract-ocr使用

如下图的图片,内容为简单的4位数字,直接使用tesseract-ocr对图片进行识别,默认参数无法识别出任何内容。

captcha

1547098242517

上述情况可能是程序默认的分页模式不匹配,如下图,该OCR可以指定多种不同分页模式。

阅读全文 »