把一篇简书博客同步到掘金的 python 脚本

2,812 阅读3分钟

需求

辛辛苦苦写完一篇质量比较高的技术博客,很多开发者朋友都会把它发到简书、掘金、个人博客等数个平台。我也不例外,一般是先在简书写好,因为简书的 markdown 编辑器用起来比较舒服,而且传图片比较方便:只需把要传的图片粘贴到剪切板上,在编辑框里 Command-V 一下,就自动上传图片、并生成相应的 markdown 代码了。

但是往别的平台发的时候有个小问题。第一次,我直接把简书博客全文复制粘贴到掘金的编辑框里,就发出去了;很快就收到掘金编辑的微信:“你的图挂啦!快去看看吧!”原来,简书会自动把博客里的图片重传一次,放在自己的图片服务器 upload-images.jianshu.io 上。而这个服务器对站外访问是有一定限制的,贴到掘金上自然就访问不到了。

于是,每次在简书发完文章,我都要把所有图片再往我自己的七牛空间重新传一份,然后用七牛的图片链接逐一替换简书的图片链接。这个过程很重复,也很无聊,为什么不能用脚本自动化处理一下呢?因此,我写了这个用于同步简书博客的 python 脚本。


使用

环境准备

这个脚本在 python 2.7.1 下运行通过。图床用的是七牛云存储。
七牛的 python sdk 需要安装 requests,没装的朋友可以在 terminal 里运行 sudo easy_install -U requests 来安装。

源码地址

源码放在 Github 上,地址戳这里

用法

  1. 把脚本源码下载到本地
  2. 填写源码中的以下部分:

     # 在此处填写你的七牛 Access Key 和 Secret Key
     accessKey = '...'
     secretKey = '...'
     q = Auth(accessKey, secretKey)
    
     # 七牛上的 bucket 名
     bucketName = '...'
     # 这个 bucket 的外链前缀,就是七牛后台的“外链默认域名”
     imageUrlPrefix = "http://xxxxxx.bkt.clouddn.com/"
  3. 把 blog.txt 里的文本替换成自己的博客内容
  4. 在 terminal 中切换到脚本根目录,运行:python blogbot.py,会看到以下输出:
    $ python blogbot.py 
    正在解析文件...
    正在下载图片...
    下载中:1 / 4
    下载中:2 / 4
    下载中:3 / 4
    下载中:4 / 4
    正在上传图片...
    上传中:1 / 4
    上传中:2 / 4
    上传中:3 / 4
    上传中:4 / 4
    正在写入文件...
    完成啦~
  5. 新生成的博客就在脚本根目录下的 newBlog.txt 里。拿去用吧:)

源码讲解

为什么选择 python?

其实用任何一种脚本语言都可以。七牛还有 javascript 的 sdk,所以一开始想做成一个网页的。不过因为涉及到需要填写七牛的 Access Key 和 Secret Key,感觉在本地运行更安全一些(而且懒得画网页了……),所以用的 python。

脚本流程

  1. 读文件
  2. 从博客正文中识别图片链接
    这一步用的是正则表达式,简单匹配 markdown 的图片语法,提取出所有的图片链接。
  3. 下载图片
    用 python 的 urllib.urlretrieve 下载图片,自动命名为 image1image2……
  4. 上传图片到七牛
    使用七牛的 python SDK。自动命名为形如 blog20161027_image1 的文件名,前面拼上七牛的外链前缀,即得到七牛上的外链地址。
  5. 替换链接
  6. 写文件

源码很简单,我注释也写得挺详细的,一看源码就明白了。

局限性

主要是为了我自己的需求使用,很多地方考虑得比较简单。比如:

  • 正则表达式只是简单匹配了 markdown 的图片语法,并没有考虑例如“图片语法在代码段里“之类的情况。
  • 图片的命名比较简单粗暴,不能满足一天处理两篇文章的需求(第二篇文章的图片会覆盖第一篇)。如果有这种需求,可以简单修改一下命名那部分的代码。

就是这样一个很简单的小脚本,希望能为大家的生活带来方便~