当前位置: 首页 > news >正文

基于PIL和Tesseract的数字计算验证码识别处理思路

在这里插入图片描述
如图,我们在使用python自动化的时候经常会遇到很多各式各样的验证码。这个是一个数字加法的验证码。

干扰项里包含完整的数字、字母信息,普通的OCR识别可能不是很准确。

但是不管怎们样,咱们先把必要的环境搭建起来,试一下Tesseract的识别结果吧。

1、安装Tesseract:
首先需要下载Tesseract的安装包 官方网址:https://digi.bib.uni-mannheim.de/tesseract/,网上的教程很多推荐安装名称里不带dev的正式版,据说更稳定

配置Tesseract:
安装完毕之后需要配置一下环境变量,分为两步:
1、在path里加入安装路径,及安装路径内的tessdata文件夹路径。

在这里插入图片描述
2、新建系统变量{TESSDATA_PREFIX:E:\Program Files (x86)\Tesseract-OCR\tessdata} 这里变量名是固定的TESSDATA_PREFIX,值是刚刚提到的安装路径内下一级tessdata文件夹的完整路径
在这里插入图片描述

相关文章:

  • C技能树-判断语句
  • 【JavaGuide面试总结】Java IO篇
  • 网络编程(2)
  • 带你走进Java8新特性Stream流的小世界
  • 07_linux中断控制
  • java多线程的使用
  • [数据库迁移]-ES集群的部署
  • 计算机相关专业混体制的解决方案(事业编之学校与医院)
  • Go语言基础入门第二章
  • 蓝桥杯2021省赛Python
  • 更方便Spring存储和读取对象,五大类注解、@Bean、@Autowired、@Resource
  • 数据挖掘,计算机网络、操作系统刷题笔记36
  • 走进 HTML
  • Kettle(8):删除组件
  • linux基本功系列之-rpm命令实战
  • java基础学习 day37 (集合)
  • CGAL 点云精配准之ICP算法
  • 主流的操作系统(带你快速了解)
  • Linux中的权限问题
  • HackTheBox Stocker API滥用,CVE-2020-24815获取用户shell,目录遍历提权
  • “棉花糖爸爸”陈生梨:女儿将落户到贵州纳雍
  • 两日内连续施压,特朗普再次喊话美联储降息
  • 中央和国家机关工委建立健全整治形式主义为基层减负长效机制
  • 世卫成员国就《大流行病协议》达成一致,首次演练应对气候诱发的病毒危机
  • 浙江税务发布拟录用公务员名单,前温州高考理科第一名考上乐清税务局
  • 2025年上海版权宣传周在杨浦启动