用Java抓取RSS生成Mobi文件发送到Kindle

简介:

最近写了个小工具,通过抓取RSS生成适合Kindle展示的Mobi格式的文件,并发送到Kindle 个人图书馆,也算是继续“自动化”之旅。

代码前前后后写了个把月,趁着放假期间,决定把它搞定。使用方法什么的就不多说了,项目开源到Github上去了,上面有使用说明

这篇文章简单得聊聊项目本身以及总结的一些问题。

项目简介

首先来看看项目的组织结构图:


大致分为三大部分:

  • core:核心部分,定义了RSS相关的基本数据抽象(base)以及所有流程的接口抽象(contract)
  • component:组件(可选),两个组件,一个是对mobi文件进行strip处理,以很好得控制最终文件的大小,另一个是邮件发送
  • impl:对core以及component的实现。
其他几个部分:util中定义了一些帮助方法,Service是程序的入口,也是各个流程接口方法的衔接与组合调用,resources(不包含在上图中)定义了一大堆各种配置。用Java写程序就是这样,你懂的。

core


base包不必多说,一个RSS源大概可以分解为三个对象:一个Feed包含了N个Entry,每个Entry都包含了文本内容(desc)以及若干个Image。
说说核心流程的抽象:(按照流程顺序说明,不按照图中接口顺序)

AbstractConfigManager

是一个抽象类,维护了项目最核心的配置文件(resources/rtms.properties),并对其中的配置完整性进行检查。

IFeedLinkProvider

要抓取RSS,必须要有RSS Source(RSS URL)。该接口作为Feed link 的 provider 定义了一个方法来获取所有需要抓取的链接:
/**
     * get parsing rss links
     *
     * @return the String array of all links
     */
    String[] getFeedLinks();
 
 

IRSSParser

获取到feed的链接之后,就需要去一个个parse它们,该接口定义了parse方法:
/**
     * parse feed with given urls
     *
     * @param urls the URL Array
     * @return the BaseFeed Array
     */
    BaseFeed[] parse(URL[] urls);

返回生成的Feed对象集合,由于有些RSS源不提供全文输出(只是提供一个摘要,比如看 这里),所以这时候就需要一个全文输出处理,来从给定的URL获取原文

IFullTxtOutput

该接口定义了输出全文的协议:
/**
     * output full text from a entrylink
     *
     * @param entryLink the string of the entry link url
     * @return the full text
     */
    String fullTextFrom(String entryLink);

在parse的过程中,难免会遇到<img />标签,我们在parse时候先对其src属性进行处理,但图片并不在此进行下载,所以需要将其先存起来,在需要下载的时候,在取出来下载,这时,我们需要一个“图片运输器“

IImgTransporter

该接口定义了图片的保存与获取协议:
/**
     * push a img obj to the image store
     *
     * @param img the instance of BaseImage
     */
    public void push(BaseImage img);

    /**
     * get all image objs with the feed
     *
     * @param feed the instance of BaseFeed
     * @return the map of all the images per feed
     */
    public Map<String, BaseImage> getAllImageObjsWithFeed(BaseFeed feed);

由于我们认为一个RSS Feed是一个基准单位(一个mobi文件以一个个feed组合而成)所以图片的获取以feed为单位整取(当然也可以粒度再细一点以feed里每个entry为基准)。

如果不需要额外的功能,我们已经能够生成mobi文件了:

IMobiGenerator

该接口定义了生成mobi需要实现的方法:
/**
     * generate mobi file with a list of feeds
     *
     * @param feeds the List of BaseFeed instances
     * @return return the generated mobi file path
     */
    String generate(List<BaseFeed> feeds);

通过传入一个BaseFeed对象的集合,最终输出mobi文件的全路径即可。
以上这些接口,定义了将RSS生成Mobi文件的最基本的流程,如果需要一些附加功能,可以有选择的实现component package中的一些接口。

component

该package大概提供了三个扩展:

IEntryTransporter

上面在说到IfullTxt的时候,我们通过实现该接口,完成了全文输出。出于效率与性能考虑,我们有必要将最近处理过的feed的一些entry“缓存”起来。这是因为,该项目有可能被构建为daily task,而有些RSS 源并不是每日更新,即便更新过,如果不多,还是会抓取到一些旧的。这时我们会先去查看这些entry是否曾经已被处理过,如果已经处理过,那么就没必要再去处理了(特别是全文输出还是很耗时的),协议:
/**
     * save a entry
     *
     * @param entry the instance of BaseEntry
     */
    void save(BaseEntry entry);

    /**
     * check is entry exists
     *
     * @param entry the instance of BaseEntry
     * @return if exists return true otherwise return false
     */
    boolean entryExists(BaseEntry entry);

    /**
     * get processed entry (the func for cache entry)
     *
     * @param entry the instance of BaseEntry
     * @return return the processed entry
     */
    BaseEntry getProcessedEntry(BaseEntry entry);

    /**
     * get a feed's all entry (processed)
     *
     * @param feed the instance of BaseFeed
     * @return the map of the feed's entries (key is entry's link)
     */
    Map<String, BaseEntry> getAllEntryPerFeed(BaseFeed feed);

IFileStripHandler

由于生成适合kindle的mobi文件,大致的手段是通过amazon提供的kindlegen命令行工具实现,但通过他生成的文件非常大(大到几十兆)。这样非常不便于网络传输(特别是邮件发送),在不影响阅读的情况下,是有办法大幅减小其大小的,所以,我们定义类该接口,供需要的扩展实现:
/**
     * do strip
     * @param originalFilePath the original file path
     * @param newFilePath the new path
     */
    void doStrip(String originalFilePath, String newFilePath);

最后,如果有必要,可以将生成的文件发生到kindle接受的图书馆(一个认可的邮件地址),这时我们需要抽象出,邮件发送的接口:

IMailSender

它定义了发送带附件的邮件接口:
/**
     * send mobi file from path
     * @param filePath the mobi file path
     */
    void sendFrom(String filePath);

impl

该package默认实现了core以及component里所有的接口(既然全都实现了,还抽出接口来干嘛?)。这里,我只是提供了默认实现,抽出接口的原因是为了保证流程的稳定性,从而不必过份关注实现(下面你会看到实现的方式可能并不是唯一的),即使实现变了,也只是某个对象的内部发生改变,不至于扩大影响。

抽象与实现

哪里可能存在变化呢?因为我本机装了redis,所以我对图片对象以及entry对象的存储借助于redis,如果你不熟悉redis你可以更改其他的存储方式。FeedLink我默认存放在一个properties配置文件里,你可以存放在其他数据源内。RSSParser采用的是ROM+jsoup的解析方式,FullTxt 以及 Strip mobi借助于python来实现。。。由于有很多开源库可供选择,所以,如果你对某个库更熟悉,你可以更改它的实现,而不必伤筋动骨。

库与技术点总结

(1)mobi文件生成其实是可以基于html文件的,因而可以定义出固定的templete,填充内容后直接生成即可,这里使用的是freemarker
(2)解析Feed以及对html进行过滤处理使用的是ROM+jsoup
(3)json处理采用gson
(4)全文输出借助于python的两个强大的开源库(feedparser / readability-lxml)。原理大概是解析dom,对某些元素的父元素计算特征值,可参考 这篇文章 以及 这篇文章
(5)mobi文件生成,借助于amazon提供的 for mac平台的kindlegen
(6)邮件发送采用的是javamail
(7)strip减小mobi文件大小也借助于python的实现,通过删除文件内部大量无用的空白等
(8)图片多线程下载,采用的是线程池,这边还有待重新处理

TODO

(1)重新实现多线程图片下载
(2)用node.js 起一个http server或者构建一个linux定时任务,做daily task

具体的使用方法以及后续更新请关注:https://github.com/yanghua/RssToMobiService


原文发布时间为:2014-02-06

本文作者:vinoYang

本文来自云栖社区合作伙伴 CSDN博客,了解相关信息可以关注CSDN博客。
目录
相关文章
|
28天前
|
Java
有关Java发送邮件信息(支持附件、html文件模板发送)
有关Java发送邮件信息(支持附件、html文件模板发送)
26 1
|
1月前
|
Java
java中替换文件内容
java中替换文件内容
14 1
|
1月前
|
Java API
Java中文件与输入输出
Java中文件与输入输出
|
1月前
|
Java
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
java实现遍历树形菜单方法——映射文件VoteTree.hbm.xml
9 0
|
1月前
|
Java
java程序导出堆文件
java程序导出堆文件
|
1月前
|
SQL Oracle Java
sql文件批处理程序-java桌面应用
sql文件批处理程序-java桌面应用
25 0
|
1月前
|
存储 Java 文件存储
如何用 Java 压缩 ZIP 文件?
【2月更文挑战第21天】
32 1
|
1月前
|
Java
Java实现文件和目录的管理
Java实现文件和目录的管理
28 0
|
2天前
|
Java 关系型数据库 MySQL
Elasticsearch【问题记录 01】启动服务&停止服务的2类方法【及 java.nio.file.AccessDeniedException: xx/pid 问题解决】(含shell脚本文件)
【4月更文挑战第12天】Elasticsearch【问题记录 01】启动服务&停止服务的2类方法【及 java.nio.file.AccessDeniedException: xx/pid 问题解决】(含shell脚本文件)
23 3
|
30天前
|
Java 数据库连接 API
Java 学习路线:基础知识、数据类型、条件语句、函数、循环、异常处理、数据结构、面向对象编程、包、文件和 API
Java 是一种广泛使用的、面向对象的编程语言,始于1995年,以其跨平台性、安全性和可靠性著称,应用于从移动设备到数据中心的各种场景。基础概念包括变量(如局部、实例和静态变量)、数据类型(原始和非原始)、条件语句(if、else、switch等)、函数、循环、异常处理、数据结构(如数组、链表)和面向对象编程(类、接口、继承等)。深入学习还包括包、内存管理、集合框架、序列化、网络套接字、泛型、流、JVM、垃圾回收和线程。构建工具如Gradle、Maven和Ant简化了开发流程,Web框架如Spring和Spring Boot支持Web应用开发。ORM工具如JPA、Hibernate处理对象与数
92 3

热门文章

最新文章