PDF 转 Docx
1.克隆
git clone https://github.com/hongpeiqin/pdf2word.git
2.安装所需依赖
pip3.10 install -r requirements.txt
3.命令行转换
python3.10 simple_converter.py /Users/Disk/1024/11.pdf -o /Users/Disk/1024/11.docx
开始转换: /Users/Disk/1024/11.pdf
输出文件: /Users/Disk/1024/11.docx
[INFO] Start to convert /Users/Disk/1024/11.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[INFO] [3/4] Parsing pages...
[INFO] (1/322) Page 1
...
[INFO] (322/322) Page 322
[INFO] [4/4] Creating pages...
[INFO] (1/322) Page 1
...
[INFO] (322/322) Page 322
[INFO] Terminated in 619.83s.
转换完成!
命令行批量转换
使用批量转换工具处理多个PDF文件:
python batch_converter.py -f 文件路径.pdf [-o 输出目录]
或者转换整个目录中的PDF文件:
python batch_converter.py -d 目录路径 [-r] [-o 输出目录] [-j 线程数]
参数说明:
-f, --file
:指定单个PDF文件-d, --directory
:指定包含PDF文件的目录-o, --output-dir
:指定输出目录-r, --recursive
:递归搜索子目录中的PDF文件-j, --jobs
:并行处理的最大线程数-q, --quiet
:减少输出信息
例如,转换整个目录及其子目录中的所有PDF文件,并使用4个线程:
python batch_converter.py -d 文档目录 -r -o 输出目录 -j 4
Docx 无损提取图片
将
docx
文档重命名为zip
解压后
xxx/word/media
里就是无损图片
评论区