# image2text

**Repository Path**: pro4java/image2text

## Basic Information

- **Project Name**: image2text
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-11-15
- **Last Updated**: 2024-11-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

1. 安装java 17 环境,执行java -version,可以查看版本号

2. 安装python 执行python --version,可以查看版本号, 版本>= 3.12.6,
   安装python库：pip install pytesseract

3. 安装Tesseract-OCR 服务

4. 打开image_to_string.py文件,修改pytesseract.pytesseract.tesseract_cmd 参数,指定Tesseract-OCR服务的可执行文件的路径,注意参数前面有个r,
    例如：
    windows =>  pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
    linux =>  pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'

5. 在当前文件夹中,执行java -jar image2text-0.0.1-SNAPSHOT.jar,访问http://localhost:8080/index
    操作步骤
       (1).上传带图片的pdf
       (2).上传成功,等待提取图片
       (3).图片提取成功后,网页右上角会有开始提取数据按钮,点击即可提取数据
       (4).当图片提取成功后,文字就会变红,并且会出现红色的查看文本字样,点击图片可以查看提取的图片数据,点击查看文本可以查看提取的数据
       (5).右上角出现提取成功后,相应的会出现下载文件,点击下载文件,就可以下载图片和图片中文本的压缩包

6. 如果有些图片识别不出,
    可以单独执行 python image_to_string.py 图片全路径 输出文件全路径

备注：
     1.程序执行的时候,会出现temppdf、temppic、temptxt、tempzip临时文件夹,请误删除
     2.解压文件夹中,含有:
        源码文件image2text,
        打包的jar image2text-0.0.1-SNAPSHOT.jar,
        python 脚本, 可自行调整脚本逻辑,切勿修改脚本的收入参数,写入


"D:\Program Files\Java\jdk-17\bin\java.exe" -jar image2text-0.0.1-SNAPSHOT.jar