问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

我想知道nutch是怎么进行搜索的?他的检索算法是什么,具体代码是哪部分?

发布网友 发布时间:2022-04-14 12:57

我来回答

2个回答

懂视网 时间:2022-04-14 17:18

Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。Nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范

Nutch学习整理 第一部分 单机尝试 1、安装部署 Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。 Nutch的配置文件主要有两个:
  • domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*.)*MY.DOMAIN.NAME/
  • nutch-site.xml 这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
    2、单机主要爬取命令 简单命令格式,不赘述。 bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topN]
    3、爬取结果解析 nutch爬取下来的网页信息,保存路径格式如下:

    主要爬取信息保存在路径segments下:


    <喎?http://www.2cto.com/kf/ware/vc/" target="_blank" class="keylink">vcD4KPHVsPgo8bGk+Q3Jhd2xkYsrHy/nT0NDo0qrXpcihtcSzrMGsvdPQxc+iKLTmt8XPwtTYtcRVUkyjrLywz8LU2LXEyNXG2qOs08PAtNKzw+a4/NDCvOyy6cqxvOSjrNK7sOPU2sXAyKHE2sjdveLO9sq9sru74dPDtb2jqTxsaT5MaW5rZGLW0LTmt8W1xMrHy/nT0LOsway907ywxuTDv7j2way907XEwazI67XY1re6zcOqzsSxvqGjPGxpPlNlZ21lbnRztOa3xdelyKG1xNKzw+ajrNPryc/D5sG0vdPJ7rbIIGRlcHRoIM/gudijrGRlcHRoyejOqry41PLU2iBzZWdtZW50c8/Cyfqzyby4uPbS1MqxvOTD/MP7tcTX087EvP680KGjz8LA/b3YzbzKxwogLWRlcHRoPTMKCjxpbWcgc3JjPQ=="http://www.2cto.com/uploadfile/Collfiles/20141127/2014112709151123.jpg" alt="">
    Segments下的文件夹含义:

  • crawl_generate :names a set of urls to be fetched
  • crawl_fetch : contains the status of fetching each url
  • crawl_parse : contains the outlink urls, used to update the crawldb
  • content : contains the content of each url
  • parse_text : contains the parsed text of each url
  • parse_data : contains outlinks and metadata parsed from each url

    Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成(待下载URL集合);crawl_fetch(每个下载URL的状态)、content在抓取时生成;crawl_parse(包含用来更新crawldb的外链)、parse_data、parse_text在解析抓取的数据文件时生成。 在进行爬取结果导出的时候,六个参数(-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate)分别对应需要导出的内容。 导出命令例: [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata
    <--未完待续-->








    热心网友 时间:2022-04-14 14:26

    其实这个问题很复杂,但分层之后,就显得清晰多了。
    1、nutch是一个搜索产品的半成品,自己完成网络爬虫的功能,参数配置非常复杂周详,而后加上lucene的搜索功能,再加上hadoop的云平台基础。
    2、要想学习他检索要先学会lucene,他的检索的核心都是lucene,包括索引、查询、排序等核心环节。
    3、具体代码我好长时间不看了,找下lucene in action等这样的书看吧,学习资料超多。
  • 声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
    四万元没开发票税务局发多少钱 不给开发票这个情节要罚多少钱? 广东乌龙茶的种类 银行什么时候拉征信 600795国电电力,为什么在2010年4,5月突然从8块跌到4块呢?涨幅-50%... 学习很差怎么逆袭 高考文科差生五十天冲刺计划!!! ...漂亮女人,那些不大漂亮的还很善良有点丑的怎么办?她们不是很可怜吗... CS1.6 AWP经典的FRAG视频 求链接 ...大家谁有AWP的视频或者DEMO,要个看看,学学,谢谢!~ 美菱bcd-222he3说明书 美菱冰箱显示屏美菱冰箱BCD-222HE3B显示屏近期常常出现常亮或闪烁,显示屏内有人头符号和三角 美菱冰箱bcd_222he3触摸键不起作用 美菱bcd-222he3b冰箱显示!号和人头,而且显示屏闪烁,请问高手们是怎么回事?谢谢! 美菱的电脑温控冰箱BCD-222HE3B 冷冻室如何关闭 请问:给冰箱(222HE3B)怎么能配上个冷冻箱内的匣子? 大虾好,我想最近购买美菱冰箱BCD-222HE3B一台 怎么在一个学校官网上看是否有研究生专业? 美菱bcd222he3b怎么解锁控制面板 在研招网怎么查询今年自己考研的学校研究生报名时间以及流程啊 美菱冰箱BCD-222HE3B 冰箱调节了一次温度 就不制冷了 怎么办? bcd-222he3b型号冰箱 不工作 冷藏室灯光正常亮 什么原因 研招网哪个地方可以看到一个学校的,报录比,分数线,招生人数;我没找到这个地方;哪里可以参考数目? 美菱冰箱BCD-222HE3B变温室怎么调为冷冻 还有怎么用的 我解锁都不会 戴安娜王妃美丽单纯,为何查尔斯王子却始终心系卡米拉? 你好,我研究生报名时报的专业方向忘记了,现在怎么查呢?在中国研招网上没查到啊。在哪里?谢谢啊。 男色难痣要不要点 美菱冰箱BCD-222HE3B使用4年,不制冷,有哪几种原因?维修价位是多少? 赫德王妃:生活在皇宫深处,无人目睹芳容,为何被揣测颜值爆表? 美菱三开门冰箱BCD-222HE3B怎么样 我的微信是别人的卡,我解绑了别人的银行卡为什么还不能转账 微信里提了20000到银行卡为什么转给别人一百都转不出去? 我微信有绑定银行卡 但是我转账给别人转了两百就转不了了 但是明天又可以转200这是为什么啊 房事不懂具体该怎么做 如何进行房事 明天我结婚房事怎么做? 姐妹们!你们和父母同住的时候!都是怎么做夫妻房事的? 一年四季的最佳养生性爱怎么做 跪求一方法怎么才能个自己的女友来行个房事!! 双方都有感觉且都愿意很快乐的去做? 谢谢了 这句广东话怎么读? 嫁妆画:古时教两人如何进行房事 粤语:你度定我度?是什么意思 玉溪市里有培训教师资格证的吗? 2011下半年玉溪师范学院有教师资格证考前培训吗 百姓车联怎么样?靠谱吗? 非师范类要考教师资格证应该怎么做?包括去哪里报名?我是玉溪的 天津二手车百姓网可靠吗 石家庄二手车百姓网怎么样,在上面买二手车靠谱吗 辛集二手车百姓网 大庆二手车百姓网二手车交易市场拿天都开吗?