94794bd5 by 周伟奇

prune extract model

1 parent ff70b617
1 # PDF转图片脚本 1 # PDF转图片脚本
2 2
3 ## 2种转化方式 3 ## 转化方式
4 - 保存整个页面为png图片 4 - 保存整个页面为png图片
5 - 提取PDF页面中的图片对象
6 - 图片对象数目为0(如电子账单),保存整个页面为png图片
7 - 图片对象数目为1
8 - 大图,保存图片对象
9 - 小图(如电子账单盖章),保存整个页面为png图片
10 - 图片对象数目大于1
11 - 多整图,保存图片对象
12 - 多碎图,根据宽高突变位置分组,拼接合并后保存
13 - 其他特殊情况:保存整个页面为png图片
14
15 ## 已知问题
16 - 提取图片对象方式下,整图与碎图通过宽高阈值区分,无法满足所有PDF。个别PDF中,整图很小时会被当做碎图合并,碎图很大时会被当做整图不合并
17 5
18 ## 用法 6 ## 用法
19 - python3.6+ 7 - python3.6+
20 - `pip install -r requirements.txt` 8 - `pip install -r requirements.txt`
21 - `python pdf_to_img.py [-h] -i INPUT [-o OUTPUT] [-e]` 9 - `python pdf_to_img.py [-h] -i INPUT [-o OUTPUT]`
22 ``` 10 ```
23 可选参数: 11 可选参数:
24 -h, --help 查看帮助信息并退出 12 -h, --help 查看帮助信息并退出
25 -i INPUT, --input INPUT PDF文件或目录路径,必要参数 13 -i INPUT, --input INPUT PDF文件或目录路径,必要参数
26 -o OUTPUT, --output OUTPUT 输出图片保存路径,非必要参数,缺省值为PDF文件路径 14 -o OUTPUT, --output OUTPUT 输出图片保存路径,非必要参数,缺省值为PDF文件路径
27 -e, --extract 默认采用整个页面保存png图片的方式,增加该选项选择提取图片方式转化图片
28 ``` 15 ```
...\ No newline at end of file ...\ No newline at end of file
......
1 Pillow==7.2.0
2 PyMuPDF==1.17.0 1 PyMuPDF==1.17.0
...\ No newline at end of file ...\ No newline at end of file
......
Styling with Markdown is supported
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!