【软件介绍】
Tesseract OCR据说曾经的图像识别能力排名第三,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract OCR最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。
【使用说明】
下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:
Tesseract目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件。 这个安装程序默认包含了英文字库。
使用Tessract-OCR引擎识别验证码
打开DOS界面,输入tesseract:
如果出现如上输出,表示安装正常。
我准备了一张验证码code.jpg放在D盘根目录下
结果为: