站内搜索
编辑推荐
本类下载榜
软件简介
apache nutch是一款开放源代码的Java搜索引擎框架。你需要Java搜索引擎吗?那就来看看小编为您带来的这款apache nutch。该工具提供了运行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬虫,使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。它还为大家提供高质量的搜索结果,非常的方便实用,欢迎需要的用户来jz5u使用!
1、Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎
2、每个月取几十亿网页
3、为这些网页维护一个索引
4、对索引文件进行每秒上千次的搜索
5、提供高质量的搜索结果
1、支持将起始URL集合注入到Nutch系统之中
2、支持生成片段文件,其中包含了将要抓取的URL地址
3、根据URL地址在互联网上抓取相应的内容
4、解析所抓取到的网页,并分析其中的文本和数据
5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取
6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中
1、首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)
2、一直点击next到结束,成功将项目导入project中去
3、源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。
4、接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中
5、接下来我们就可以开始对指定的网站的信息进行完整的爬取了
1、增加了可爬取的数据类型
2、增加对Web爬虫的管理功能
3、解决了一些格式上的已知问题
4、修复了一些bug,优化了软件界面
5、优化了软件性能
Google Earth Pro(google地图)v4.2.0205.5730简体中文绿色版
Google Earth (谷歌地球) 7.3.2.5481 简体中文绿色版
Google Earth Pro (google地图) V7.1.1 中文绿色版
Google Earth PRO【鸟瞰世界】V4.2.0180.1134 繁体中文特别版
Google Earth (谷歌地球)7.3.2.5495 官方安装版
越狱搜索器 3.0 绿色免费版
和谐资源搜索器 V1.0 绿色版
Google Earth (google地球) V7.1.4.1529 绿色便携版
网博士 v4.7.2简体中文绿色版
全盘搜索终结者v1.53绿色版_一键快速电脑全盘搜索文件
专门抓地图服务的图MapCapturerm【抓取google地图、卫星图、地形图等】
ed2k资源搜索利器|超凡搜索(beyondsearcher)v1.3.0绿色版
快播搜索工具(Qvod搜索器防关键字屏蔽)v1.0 中文绿色版
快播电影搜索专家 v4.2绿色版_快速搜寻最新电影资源
域名注册通(多个后缀域名搜索)1.6绿色版
刷百度下拉软件|刷百度下拉框 v1.1绿色免费版