跟益达学Solr5之使用Tika从PDF中提取数据导入索引-阿里云开发者社区

跟益达学Solr5之使用Tika从PDF中提取数据导入索引

2016-05-16 2174

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

开始此篇之前，我假定你已经学会了如何在Tomcat下部署Solr5啦。即启动Tomcat后你能看到Solr5的Web UI界面。OK，下面直接进入正题。

首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包，当然你也可以直接到依赖的jar包扔到Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图：

这里我采用了另外一种方式，把依赖的jar包放当前core的lib目录下，这样做的好处是每个core依赖的jar包都存放在各自core的子目录下分类存放，更方便管理，全部扔tomcat下杂乱无章不好管理。如图新建lib目录：

然后往lib目录copy一些 DIH依赖的jar包，如图：

截图的那些jar包在solr5的解压包里都能找到，如果你实在找不到再来问我。然后solrconfig.xml配置文件里我们需要配置外部jar包的加载路径，如图配置：

dir参数里的./即表示当前core根目录，regex表示一个正则表达式，目的就是为了批量指定j加载哪些jar包.然后配置我们的dataimport处理器并指定data-config.xml配置文件的加载路径，如图：

然后编写配置我们的data-config.xml,如图：

url="C:/docs/solr-word.pdf"即表示对C:\docs目录下的solr-word.pdf文件进行文本提取并创建索引，format表示把提取到的文本当作什么类型的数据，默认支持text(纯文本)，xml,json,html等格式，不配置format默认值就是text.

然后我们需要在schema.xml文件里定义我们的域，如图：

细心的你，肯定发现了我配置了IK分词器，IK分词器配置如图：

刚才我已经在core根目录的lib下复制了IK分词器jar包，我们还需要在core\conf目录下复制一份IKAnalyzer.cfg.xml配置文件，如果你有自定义IK扩展字典，那么你还需要把扩展字典文件的加载路径配置在IKAnalyzer.cfg.xml文件里，如图：

然后我们需要在C:/docs目录下放一个PDF文件进行测试，solr-word.pdf这个测试PDF文件在solr5的解压目录下可以找到，如图：

到此，准备工作就完成了，重启你的tomcat,访问你的Solr Web UI进行测试，如图：

如果你执行后看到如图效果，就表明PDF导入Solr成功了，为了验证PDF成功导入Solr了，你可以切换到Query菜单进行查询验证，如图：

OK,关于如果导入PDF到Solr5就介绍到这儿了。相关配置文件我待会儿会在底下的附件里打包上传一份供你们参考，但希望你们还是要自己动手操作下，不要仅仅是直接解压复制我提供的示例，只有于遇到问题并不断自虐的过程中你才能学到经验。(注意：由于jar包体积太大，ITeye无法上传，所以lib目录下的jar我没法上传，所以如果你找不到jar包，请联系我)