目 录CONTENT

文章目录

Word文档系列

ABin
2025-04-24 / 0 评论 / 0 点赞 / 12 阅读 / 0 字

PDF 转 Docx

1.克隆

git clone https://github.com/hongpeiqin/pdf2word.git

2.安装所需依赖

pip3.10 install -r requirements.txt

3.命令行转换

python3.10 simple_converter.py /Users/Disk/1024/11.pdf -o /Users/Disk/1024/11.docx
开始转换: /Users/Disk/1024/11.pdf
输出文件: /Users/Disk/1024/11.docx
[INFO] Start to convert /Users/Disk/1024/11.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[INFO] [3/4] Parsing pages...
[INFO] (1/322) Page 1

...

[INFO] (322/322) Page 322
[INFO] [4/4] Creating pages...
[INFO] (1/322) Page 1

...

[INFO] (322/322) Page 322
[INFO] Terminated in 619.83s.
转换完成!

命令行批量转换

使用批量转换工具处理多个PDF文件:

python batch_converter.py -f 文件路径.pdf [-o 输出目录]

或者转换整个目录中的PDF文件:

python batch_converter.py -d 目录路径 [-r] [-o 输出目录] [-j 线程数]

参数说明:

  • -f, --file:指定单个PDF文件

  • -d, --directory:指定包含PDF文件的目录

  • -o, --output-dir:指定输出目录

  • -r, --recursive:递归搜索子目录中的PDF文件

  • -j, --jobs:并行处理的最大线程数

  • -q, --quiet:减少输出信息

例如,转换整个目录及其子目录中的所有PDF文件,并使用4个线程:

python batch_converter.py -d 文档目录 -r -o 输出目录 -j 4

Docx 无损提取图片

  • docx文档重命名为zip

  • 解压后 xxx/word/media 里就是无损图片

0

评论区