古人云,敝帚自珍。
虽然自己写的BLOG都是些没营养的东西,但还是想收藏起来。
花了点时间研究了一下epub格式,写了段转换程序,把Wordpress导出的备份文件WXR转成epub格式。
本想贴代码凑数,结果发现代码还是多了点,所以还是改成下载吧。
第一个是生成epub的库:epubbuilder.py
(源码附后)
之后是解析WXR并调用epubbuilder生成epub的主程序:wxr2epub.py
(源码附后)
下载:wxr2epub source code 5.4K(GPL)。
使用时在源目录下放一个叫做wordpress.xml的WXR文件,再创建一个images的子目录,里面放上文章中所有引用过的图片,最好有一个叫cover.jpg的,这个图片将会被作为电子书的封面。生成的电子书每一篇文章及其评论会作为电子书的一个章节,文章多的话,目录项会很多,某些电子书软件可能无法完全显示所有目录项。
所以说,还是开放好啊。Wordpress的WXR用的是开放的XML格式,epub也是用开放的zip+HTML+XML格式。
像CSDN BLOG这种自己开发的平台就没办法了……当然也不是完全没有办法,可以自己写一个爬虫去把页面全抓下来,再用pyquery之类的解析出内容,然后生成epub。不过这就麻烦得多了,除了程序写起来麻烦以外,还要防止爬得过猛被网站封IP之类的副作用——这事我也干过,不过不是对CSDN。
分享到:
相关推荐
利用博客备份专家将备份的博客导出为WXR(WordPress eXtended Rss)格式,再在WordPress控制台中导入生成的WXR(xml文件),即可将全部文章导入到WordPress(包括分类和日期)。 生成静态网站 可以将备份的站点...
【18】WordPress格式【相对图片地址,可以搬家图片】(.xml)【WXR文件,使用相对图片地址,需要下载图片,导入wordpress时同时把下载的博客图片文件夹拷贝到wordpress网站根目录,这样图片也可以搬家。】 【19】...
WordPress导入器Redux 该存储库包含当前正在开发的的新版本。 。 快速,轻巧,一致。 选择三个。 :palm_tree: :smiling_face_with_sunglasses: 如何使用? 通过仪表板 直接从GitHub安装插件。 ( ) 激活插件...
【18】WordPress格式【相对图片地址,可以搬家图片】(.xml)【WXR文件,使用相对图片地址,需要下载图片,导入wordpress时同时把下载的博客图片文件夹拷贝到wordpress网站根目录,这样图片也可以搬家。】 博客管理...
WXR 解析器一个用 Python 编写的简单 WXR 解析器,用于解析从 WordPress 导出的 XML 并将其中的信息存储在 Python 的基本数据结构中,即字典和列表。 它还带有一个后端,以适合Markdown 语法导出它。 以目前的形式,...
Wxr04.java
这会将来自 RSS 2.0 / WordPress WXR(但尚未经过真实测试!)XML 的条目导入 Apache Roller。 用法 将 Apache Roller(使用 5.1.1 测试)安装到您的本地 Maven 存储库中 克隆这个仓库 cd wxr2roller; mvn 清洁包 ...
WPCF 是 WordPress 生成的 WXR (WordPress eXtended RSS) 文件,它使用一整套沙箱数据生成,您可以将这些数据用于主题、插件、CSS 或其他需要您拥有大量示例数据才能使用的开发。 此特定文件包含有关站点帖子、页面...
WP网站复制器通过WordPress扩展RSS(WXR)导出文件快速创建大型生产网站的副本。 此命令依赖于通过WP DB API直接写入WP数据库,因此发布表和术语表均应为空。安装将其作为安装: wp package install wpsh/wp-cli-...
自己备份的,西数WD3200BEVT固件 -00A0RT0 01.01A01 WD-WXR1EB0XJK87
WordPress 到 PostgreSQL 这个 node.js 脚本会将的翻译成脚本,以创建具有以下结构的 PostgreSQL 数据库: 表:wp_posts wp_id BIGINT(20) post_author BIGINT(20) post_date DATETIME post_date_gmt DATETIME ...
wordpress-autop 有时您需要 WordPress 的功能,因为您正在 javascript 中处理 WXR 文件。 无耻地从解除。错误我不支持此代码。 如果有错误,则打开的问题; 如果此代码已过时,请进行 PR,我很乐意更新此包。
WXR全称为WordPress eXtended Rss,是wordpress导出数据的一种格式,它包含了您的全部文章、页面、评论、自定义字段、分类目录和标签。 简介 测试平台:typecho 1.0 & wordpress 4.0/4.1 如何使用 点击右侧的...
将 wordpress XML 导出数据(WordPress eXtended RSS 或 WXR)转换为 ghost 可以导入的 JSON 文件 ##系统要求 需要 nodejs 0.10 或更高版本 ##安装 运行npm install -g wp2ghost 对于 linux,可能需要sudo npm ...
从Ghost到Wordpress博客迁移工具 使用ghost-to-wp将Ghost博客迁移到Wordpress。 您将获得所有帖子和页面的完整HTML内容,作者和标签,包括页面还是帖子,已发布或草稿以及是否具有特色/粘性。 如果使用可选的第二...
Wordpress ImEx(wpimex)是一个Wordpress导入器/导出器脚本,它是一个开放源代码的perl脚本,旨在将WordPress扩展RSS(WXR)从一个wordpress博客转移到另一个。 它适用于两个2.7.1版本的Wordpress(已测试)。
首轮-吉林省信用信息共享平台和网站工作汇报-最终版_wxr1.pptx
2015年内容迁移:超越WXR
大人物:2495个帖子,6197条评论,231个标签,26个类别和10页的WordPress虚拟数据值
也许还包括填充模板并获取wxr格式的.xml文件以导入到Wordpress中的事情。 我想将转换和提取规则存储在Firebase之类的数据库中,这样,整个系统就可以被任何人及其用例扩展。第一个用例将.csv格式的Redmine Issues...