跟益达学Solr5之索引网络上远程文件

Tags: java solr

我们的文件有时候不在本地,可能是在网络上,这时候我们该如何对其进行索引呢?当然你可以先通过爬虫把它抓取下来保存到本地硬盘,然后通过上篇博客介绍的方式对其进行索引,其实Solr内置了URLDataSource,支持直接获取远程资源进行索引的,下面就详细介绍该如何配置实现。废话不多说,我直接贴相应的配置文件:

solrconfig.xml配置文件基本没什么变化,依赖的jar请从上篇博客里获取,

关键点是dataSource必须是urlDataSource类型才能加载远程资源文件,url表示一个远程资源文件的访问URL。

最后你需要在schema.xml配置文件中定义一个text域,如图。就这样,配置文件就搞定了,重启你的tomcat开始测试:

OK,打完收工!惯例,solr配置文件我会打包上传到底下附件里供你们参考,依赖的相关jar包请参见上一篇博客,那里面有提供下载地址。

本文链接:http://www.4byte.cn/learning/119722/gen-yi-da-xue-solr5-zhi-suo-yin-wang-luo-shang-yuan-cheng-wen-jian.html