# image2text **Repository Path**: pro4java/image2text ## Basic Information - **Project Name**: image2text - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-11-15 - **Last Updated**: 2024-11-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 1. 安装java 17 环境,执行java -version,可以查看版本号 2. 安装python 执行python --version,可以查看版本号, 版本>= 3.12.6, 安装python库:pip install pytesseract 3. 安装Tesseract-OCR 服务 4. 打开image_to_string.py文件,修改pytesseract.pytesseract.tesseract_cmd 参数,指定Tesseract-OCR服务的可执行文件的路径,注意参数前面有个r, 例如: windows => pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe' linux => pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract' 5. 在当前文件夹中,执行java -jar image2text-0.0.1-SNAPSHOT.jar,访问http://localhost:8080/index 操作步骤 (1).上传带图片的pdf (2).上传成功,等待提取图片 (3).图片提取成功后,网页右上角会有开始提取数据按钮,点击即可提取数据 (4).当图片提取成功后,文字就会变红,并且会出现红色的查看文本字样,点击图片可以查看提取的图片数据,点击查看文本可以查看提取的数据 (5).右上角出现提取成功后,相应的会出现下载文件,点击下载文件,就可以下载图片和图片中文本的压缩包 6. 如果有些图片识别不出, 可以单独执行 python image_to_string.py 图片全路径 输出文件全路径 备注: 1.程序执行的时候,会出现temppdf、temppic、temptxt、tempzip临时文件夹,请误删除 2.解压文件夹中,含有: 源码文件image2text, 打包的jar image2text-0.0.1-SNAPSHOT.jar, python 脚本, 可自行调整脚本逻辑,切勿修改脚本的收入参数,写入 "D:\Program Files\Java\jdk-17\bin\java.exe" -jar image2text-0.0.1-SNAPSHOT.jar