P

pdf_to_img

pdf_to_img

PDF转图片脚本

2种转化方式

  • 保存整个页面为png图片
  • 提取PDF页面中的图片对象
    • 图片对象数目为0(如电子账单),保存整个页面为png图片
    • 图片对象数目为1
      • 大图,保存图片对象
      • 小图(如电子账单盖章),保存整个页面为png图片
    • 图片对象数目大于1
      • 多整图,保存图片对象
      • 多碎图,根据宽高突变位置分组,拼接合并后保存
    • 其他特殊情况:保存整个页面为png图片

已知问题

  • 提取图片对象方式下,整图与碎图通过宽高阈值区分,无法满足所有PDF。个别PDF中,整图很小时会被当做碎图合并,碎图很大时会被当做整图不合并

用法

  • python3.6+
  • pip install -r requirements.txt
  • python pdf_to_img.py [-h] -i INPUT [-o OUTPUT] [-e] 可选参数: -h, --help 查看帮助信息并退出 -i INPUT, --input INPUT PDF文件或目录路径,必要参数 -o OUTPUT, --output OUTPUT 输出图片保存路径,非必要参数,缺省值为PDF文件路径 -e, --extract 默认采用整个页面保存png图片的方式,增加该选项选择提取图片方式转化图片