PDF 转 Docx

https://github.com/hongpeiqin/pdf2word.git

1.克隆

git clone https://github.com/hongpeiqin/pdf2word.git

2.安装所需依赖

pip3.10 install -r requirements.txt

3.命令行转换

python3.10 simple_converter.py /Users/Disk/1024/11.pdf -o /Users/Disk/1024/11.docx

开始转换: /Users/Disk/1024/11.pdf
输出文件: /Users/Disk/1024/11.docx
[INFO] Start to convert /Users/Disk/1024/11.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[INFO] [3/4] Parsing pages...
[INFO] (1/322) Page 1

...

[INFO] (322/322) Page 322
[INFO] [4/4] Creating pages...
[INFO] (1/322) Page 1

...

[INFO] (322/322) Page 322
[INFO] Terminated in 619.83s.
转换完成!

命令行批量转换

使用批量转换工具处理多个PDF文件：

python batch_converter.py -f 文件路径.pdf [-o 输出目录]

或者转换整个目录中的PDF文件：

python batch_converter.py -d 目录路径 [-r] [-o 输出目录] [-j 线程数]

参数说明：

-f, --file：指定单个PDF文件
-d, --directory：指定包含PDF文件的目录
-o, --output-dir：指定输出目录
-r, --recursive：递归搜索子目录中的PDF文件
-j, --jobs：并行处理的最大线程数
-q, --quiet：减少输出信息

例如，转换整个目录及其子目录中的所有PDF文件，并使用4个线程：

python batch_converter.py -d 文档目录 -r -o 输出目录 -j 4

Docx 无损提取图片

将docx文档重命名为zip
解压后 xxx/word/media 里就是无损图片

目录CONTENT

Word文档系列

PDF 转 Docx

1.克隆

2.安装所需依赖

3.命令行转换

命令行批量转换

Docx 无损提取图片

评论区