发布网友 发布时间:2022-04-23 03:17
共5个回答
热心网友 时间:2023-08-25 17:24
lucene的效率没有问题,你可以100W条记录的索引放在一台机器上,用nutch分开检索的算法,或者用hadoop存储索引,自己写一个indexsearcher,但是需要注意各个机器上的结果是本地最优不是全局最优的结果,如果想全局最优的结果还得采用全局频率计数(Nutch现在有没有我不清楚),或者放开各个机器返回结果的数量,从算法理论的角度上最大可能的获得最优解。100W记录的响应我测试过,应该可以满足要求。等你遇到什么问题,可以再联系,lucene后面的基准测试你也可以看看。热心网友 时间:2023-08-25 17:24
http://www.me.lv/jse/热心网友 时间:2023-08-25 17:24
lucene就足够了.热心网友 时间:2023-08-25 17:25
Heritrix或者Nutch热心网友 时间:2023-08-25 17:26
lucene有个 neuth 的项目,可以做搜索