我想知道nutch是怎么进行搜索的？他的检索算法是什么，具体代码是哪部分？

发布网友发布时间：2022-04-14 12:57

共2个回答

懂视网时间：2022-04-14 17:18

Nutch学习整理第一部分单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相：下载软件，上传到服务器，解压文件，修改配置文件。网上有很多类资料，不再赘述。Nutch的配置文件主要有两个： domain-urlfilter.txt 是用来配置所爬取网站的范

Nutch学习整理第一部分单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似：下载软件，上传到服务器，解压文件，修改配置文件。网上有很多类似资料，不再赘述。 Nutch的配置文件主要有两个：

domain-urlfilter.txt 是用来配置所爬取网站的范围，域名和它的子网页的正则表达式，类似于爬取规则。一般配置为： # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*.)*MY.DOMAIN.NAME/

nutch-site.xml 这类似于对我要爬取的网站进行一下声明，不声明的话，会导致爬取失败。
2、单机主要爬取命令简单命令格式，不赘述。 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN]
3、爬取结果解析 nutch爬取下来的网页信息，保存路径格式如下：

主要爬取信息保存在路径segments下：

<喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="">
Segments下的文件夹含义：

crawl_generate ：names a set of urls to be fetched

crawl_fetch ： contains the status of fetching each url

crawl_parse ： contains the outlink urls, used to update the crawldb

content ： contains the content of each url

parse_text ： contains the parsed text of each url

parse_data ： contains outlinks and metadata parsed from each url

Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容；crawl_generate最初生成（待下载URL集合）；crawl_fetch（每个下载URL的状态）、content在抓取时生成；crawl_parse（包含用来更新crawldb的外链）、parse_data、parse_text在解析抓取的数据文件时生成。在进行爬取结果导出的时候，六个参数（-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate）分别对应需要导出的内容。导出命令例： [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata
<--未完待续-->

热心网友时间：2022-04-14 14:26

其实这个问题很复杂，但分层之后，就显得清晰多了。
1、nutch是一个搜索产品的半成品，自己完成网络爬虫的功能，参数配置非常复杂周详，而后加上lucene的搜索功能，再加上hadoop的云平台基础。
2、要想学习他检索要先学会lucene，他的检索的核心都是lucene，包括索引、查询、排序等核心环节。
3、具体代码我好长时间不看了，找下lucene in action等这样的书看吧，学习资料超多。