prune extract model
Showing
3 changed files
with
2 additions
and
16 deletions
1 | # PDF转图片脚本 | 1 | # PDF转图片脚本 |
2 | 2 | ||
3 | ## 2种转化方式 | 3 | ## 转化方式 |
4 | - 保存整个页面为png图片 | 4 | - 保存整个页面为png图片 |
5 | - 提取PDF页面中的图片对象 | ||
6 | - 图片对象数目为0(如电子账单),保存整个页面为png图片 | ||
7 | - 图片对象数目为1 | ||
8 | - 大图,保存图片对象 | ||
9 | - 小图(如电子账单盖章),保存整个页面为png图片 | ||
10 | - 图片对象数目大于1 | ||
11 | - 多整图,保存图片对象 | ||
12 | - 多碎图,根据宽高突变位置分组,拼接合并后保存 | ||
13 | - 其他特殊情况:保存整个页面为png图片 | ||
14 | |||
15 | ## 已知问题 | ||
16 | - 提取图片对象方式下,整图与碎图通过宽高阈值区分,无法满足所有PDF。个别PDF中,整图很小时会被当做碎图合并,碎图很大时会被当做整图不合并 | ||
17 | 5 | ||
18 | ## 用法 | 6 | ## 用法 |
19 | - python3.6+ | 7 | - python3.6+ |
20 | - `pip install -r requirements.txt` | 8 | - `pip install -r requirements.txt` |
21 | - `python pdf_to_img.py [-h] -i INPUT [-o OUTPUT] [-e]` | 9 | - `python pdf_to_img.py [-h] -i INPUT [-o OUTPUT]` |
22 | ``` | 10 | ``` |
23 | 可选参数: | 11 | 可选参数: |
24 | -h, --help 查看帮助信息并退出 | 12 | -h, --help 查看帮助信息并退出 |
25 | -i INPUT, --input INPUT PDF文件或目录路径,必要参数 | 13 | -i INPUT, --input INPUT PDF文件或目录路径,必要参数 |
26 | -o OUTPUT, --output OUTPUT 输出图片保存路径,非必要参数,缺省值为PDF文件路径 | 14 | -o OUTPUT, --output OUTPUT 输出图片保存路径,非必要参数,缺省值为PDF文件路径 |
27 | -e, --extract 默认采用整个页面保存png图片的方式,增加该选项选择提取图片方式转化图片 | ||
28 | ``` | 15 | ``` |
... | \ No newline at end of file | ... | \ No newline at end of file | ... | ... |
This diff is collapsed.
Click to expand it.
-
Please register or sign in to post a comment