问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

solr存在哪些问题

发布网友 发布时间:2022-04-24 18:51

我来回答

2个回答

懂视网 时间:2022-04-08 09:57

TngouDB

背景

TngouDB是天狗网(tngou.net)开发的中文搜索引擎数据库,用于天狗农业网的农业搜索引擎。 天狗希望基于开源的力量,把TngouDB打造成为一个专门的中文索引NoSQL数据库。

简介

TngouDB是基于JAVA而开发的跨平台数据库,底层采用Lucene(存储引擎)、IK(分词)、Netty(通信)等 而打造的网络数据库。

TngouDB直接简化的Lucene的相关API的调用,使用SQL语句实现数据的CRUD操作。

特点

TngouDB可以脱离Lucene单机的现在,通过网络可以把TngouDB部署在单独的服务器上,单独处理存储于查询业务。TngouDb同

时简化的Solr的复杂性,用户可以通过简单的SQL语句进行相关的数据操作。TngouDB可以完全抛开Lucene与Solr相关的知识,用常见 的SQL语句就可以实现。

文档

文档地址:http://www.tngou.net/doc/tndb 支持完整的安装、配置、使用文档。

使用案例

现在TngouDB暂且是内部测试版本,请先不用用于上线的项目!我们会不断的开发与更新,后期会发布相应的正式版本。

现在TngouDB用于天狗网的搜索业务 天狗农搜(http://www.tngou.net/search)

http://git.oschina.net/397713572/TngouDB



本项目为北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码),TSE 为《搜索引擎——原理、技术与系统》一书介绍的实现原型,有兴趣的朋友可以参考该书学 习TSE。

《搜索引擎——原理、技术与系统》提供的源码下载地址http://sewm.pku.edu.cn/book/
经常不能访问,这里我将以前下载学习的加入详细注释的源代码开放出来,不仅有注释的 源代码,还有一份详细的学习笔记—— CSDN博客专栏地址为:http://blog.csdn.net/column/details/inside-tse.html ,希望对入门的朋友有一些帮 助。

目录说明:

tse081227 —— TSE的网页搜集子系统(爬虫)。

index —— TSE的预处理和查询服务子系统,该目录非常大,其实不是因为源代码大,而是         因为其中的 index/Data/Tianwang.raw.2559638448 非常大,该文件为爬虫爬     取的原始网页数据。

另外,原始的 index/Data/Tianwang.raw.2559638448 文件有三百多兆,上传时提示超出 了 git.oschina.net/ 文件的最大限制(100M),所以将文件内容删掉了很多,为了得到 较小的文件,这个对于整个系统的运行没有任何影响,因为它只是爬取的原始网页数据, 可以多可以少。

http://git.oschina.net/lewsn2008/LBTSE




gso(Google So)

这是一个用Node.JS编写的Google搜索服务,原理是拿着用户的关键词去Google服务器搜索,然后将返回的结果响应给用户。使用NodeJs编写的谷歌搜索代理程序

查看演示项目主页

关于证书的说明:文件列表中提供的证书仅为测试使用,在生产环境下需替换为你自己的证书


部署

安装:

git clone https://git.oschina.net/lenbo/gso.gitcd gso
npm install --production

运行命令:

测试/调试:

npm startnode ./bin/run

生产环境

  • 使用forever启动:
    forever start -e err.log -o output.log ./bin/run

  • 使用pm2启动:
    pm2 start ./bin/run -i max

  • 自定义设置

    站点名称

    设置站点名称后会在首页logo下,浏览器标题栏中显示。 修改conf/config.js文件, 找到name节点, 修改为自己的站点名:

    name: ‘谷搜客‘

    统计脚本

    将脚本粘贴到views/partials/statistics.ejs文件中

    首页随机文字

    将文字粘贴到data/words.txt中,每句以一个空行分割, 支持html代码

    设置多个Google IP防止被屏蔽

    将可用的IP放入conf/ip.txt文件中,每个ip以一个回车换行分割.

    设置HTTP代理服务器

    有时,我们可能需要设置一个代理服务器,比如google的ip失效暂时无法使用或被google屏蔽的时候. 修改conf/config.js文件, 找到proxy节点:

    proxy: { 
          enable: false,  //设置是否启用      timeout: 5000,  //设置超时时间, enable为true时有效      host: ‘‘,  //代理服务器地址      port: 80  //代理服务器端口  }

    静态文件压缩

    clone后的代码是未压缩的,可以使用grunt工具进行压缩。

    压缩js,css文件

    1. 安装grunt工具: npm install -g grunt-cli

    2. 在项目根目录执行grunt static命令

    3. 修改conf/config.js中的r_prefix值为/public

    注:执行grunt命令前必须使用npm install安装依赖,而不是npm install --production

    html代码压缩

    启动服务前设置NODE_ENVproduction即可,如NODE_ENV=production forever start bin/run

    完成记录

    1. 增加“相关搜索”功能;

    2. OpenSearch, 支持IE,Firefox,Chrome设置为默认搜索引擎;

    3. 简单的敏感词检测,否则连接会被墙/连接重置;

    4. HTML代码压缩,基于html-minifier模块进行压缩已渲染好的HTML代码;

    5. headroom功能(当页面向下滚动时,搜索区消失,当页面向上滚动时,搜索区又出现了。个人觉得这个体验对小屏幕笔记本及pad比较好,尤其是手机终端);

    6. 实现HTTPS功能(关键词加密);

    7. 使用cheeio替代jQuery解析;

    8. 输入框自动完成;

    9. 搜索内容语言切换;

    10. 根据时间段筛选结果;

    11. 使用filetype指令搜索时,结果项前缀显示filetype;

    12. 支持设置多个Google IP(2014-12-25);

    13. 增加HTTP代理功能(2014-12-28);

    TODO

    1. [ ] Pad显示优化,字体优化;

    2. [ ] 优化手机端使用体验;

    3. [ ] 支持键盘快捷键;

    4. [ ] 支持维基百科检索;

    5. [ ] 优化错误日志记录;

    6. [ ] 支持视频元信息检索(同时检索可播放来源)

    7. [ ] 增加在线代理功能(代理搜索结果中出现的部分被屏蔽的网站);

    http://git.oschina.net/lenbo/gso




    代码是一年前写好的,所以爬虫可能已经失效,不过在此基础上改改应该就可以了。

    K:GITdianyingscripts>tree /f文件夹 PATH 列表卷序列号为 EE77-EC45K:.│  iqiyi_movie_test.py│  letv_movie_test.py│  m1905_movie_test.py│  pps_movie_test.py│  pptv_movie_test.py│  qq_movie_test.py│  sohu_movie_test.py│  tudou_movie_test.py│  xunlei_movie_test.py│  youku_movie_test.py│└─douban
            doubanapi_1.py
            doubanapi_2.py
            doubanapi_3.py
            doubanapi_xj.py
            douban_movie_test.py

    搜索网站

    dianying_web.py支持将爬虫保存到mongodb中的数十万条记录以WEB方式的形式展示,并支持关键字查询。

    http://git.oschina.net/awakenjoys/dianying











    osc搜索引擎框架search-framework,TngouDB,gso,

    标签:

    热心网友 时间:2022-04-08 07:05

    最近搭建一个全文检索平台。最初考虑只采用lucene,然后自己写索引构建程序、检索框架等,类似osc @红薯 的方案,以前也做过比较熟悉。但有两个问题,1.比较复杂,工作量和维护量都比较大。2. 检索会有一定的延时。
    看了看Solr决定采用solr,可以节省很大一部分开发时间。但有几个问题想请教下 osc 里的全文检索高手,希望大家不吝赐教:
    1.第一种方案,solr配置数据库,自动处理建索引。这样会不会延时很大,无法做到实时检索看
    2.第二种方案,通过solrj客户端在应用端 处理建索引问题,比如在发布一篇文章的时候,通过http 提交到solr 服务端上同时建索引,这样能不能达到实时检索看而且同时这个时候 应用端也会通过 http 检索 solr, 建索引检索同时进行,这样访问量大的时候会不会导致 内存泄露、索引文件磁盘I/O负载不了的问题看
    有经验的同学能不能讨论下?那种方案较好点,对实时性要求高点。或者配置上怎么优化看
    当然这个项目是企业内部应用,访问量不会太大,服务器资源有限,所以无法用到solr的分布式特性,比如索引复制、多核来解决这些问题。而且由于可能会部署在 windows下,排除了以前做过的sphinx、nlpbamboo 基于Postgresql数据库的方案。
    声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
    华为手机删除qq聊天记录还能恢复吗 曙光英雄怎么登录以前的账号,曙光英雄曙光英雄客户端在哪里下载? 曙光英雄怎么注销账号 详细注销方法分享 曙光英雄怎么注销账号-账号注销方法介绍 六大茶类之青茶知识大科普 六大茶类香气类型之青茶(乌龙茶)茶香 六大茶类之青茶 简单认识六大茶类之青茶 一文带你全面认识六大茶类中的青茶,速来围观 识茶笔记:六大茶类之青茶篇 solr内存占用大吗 iPhone6S换屏幕后没有3Dtouch的效果,设置通用也没有3Dtouch的设置选项 荣耀50和小米9哪个好? 小米刷新率是多少? 塔罗牌如何解说? 你对塔罗牌的算命准确度怎么看? 塔罗牌是怎么一回事? 塔罗牌的逆位和正位怎么看、??? 塔罗牌怎么玩?里面有什么人物?测试什么的? 塔罗牌怎么看啊?! 塔罗牌是什么?怎么玩的? 塔罗牌正位和反位怎么区分? 塔罗牌中的正位,逆位是什么意思,怎么判断是正位还是逆位 塔罗牌的正位逆位怎么看? 塔罗牌是怎么看的?都不懂 QQ网吧在哪打开啊 是不是必须要网吧自己注册为QQ网吧、我们自己好像注册不了? 怎么申请QQ网吧合作? 我特别特别难受,感觉不如前男友的现任。好难受 QQ网吧怎么登陆? solr 的physical memory怎么改变 在windows系统上,solr中怎么配置中文分析器 windows下solr6.4 怎么配置到tomcat solr控制台都能干些什么 ? solr 安装在虚拟机还是windows好 elasticsearch,solr对比各自有哪些优缺点 solr中的数据如何全部加入到缓存中 nextcloud硬件要求 solr创建索引不稳定因素有哪些 为什么虚拟机安装的linux,用solr访问本机windows上的mysql会报下面的错。求大佬祝 如何在linux中启动solr Linux下的solr为什么Windows连不上 服务器与电脑的区别是什么 solr是不是内存查询 华为p30拍照是不是真的那么厉害? 华为P30和vivo IQOO Pro哪个更值得入手,相机差别大吗? 听说买华为p30相当于赠送一个相机,拍照真的这么厉害吗? 华为P30的拍照模式有多强?这几大拍照模式你都掌握了吗 请把华为P30这款手机怎么?拍照如何? 6s换非原装屏 换完影响3Dtouch功能吗?