2023年我开发了个pdf合并生成书签工具,将公众号所有文章下载导出合成一个pdf文件
pdf文件太多想合并成一个,于是用PDFShaper合并pdf,但合并后的pdf没有书签:

于是用python写了个pdf合并工具,这里以莫言的公众号文章为例,先下载他的所有公众号文章,详情见我之前的文章 一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数/留言数 ,导出的文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数和留言数等,看IP归属地莫言在上海:

文章也同步到博客了

所有音频也下载了:

如果是批量下载文章里的音频/视频可以使用我开发的这个小工具我又开发了个公众号音频视频和话题批量下载工具,效果:


话题下的音频也支持,代码如下:
下载效果:


下载的文章html先转换成pdf:

代码如下:
def to_pdf():
import pdfkit
print('导出 PDF...')
htmls = []
for root, dirs, files in os.walk('.'):
for name in files:
if name.endswith(".html"):
print(name)
try:
pdfkit.from_file(name, 'pdf/'+name.replace('.html', '')+'.pdf')
except Exception as e:
print(e)
def to_word():
print('导出 word...')
htmls = []
for root, dirs, files in os.walk('.'):
for name in files:
if name.endswith(".pdf"):
print(name)
try:
cv = Converter(name)
cv.convert('word/'+name.replace('.pdf', '')+'.docx')
cv.close()
except Exception as e:
print(e)
to_pdf()
# to_word()

然后将转换的pdf合并成一个文件并生成书签。


合并后的效果:

点击左侧书签跳转到对应文章pdf(含留言):


当然也可以导出pdf的书签到excel,包含书签名和页码。
