发布网友 发布时间:2022-05-13 06:16
共2个回答
热心网友 时间:2023-11-24 09:17
robots.txt文件,就是可以设置你网站的哪些内容允许蜘蛛抓取,哪些不允许蜘蛛抓取的一个文件。今日,据百度站长平台最新消息,用户在百度搜索网址或相关关键字时,网页搜索结果会出现robots提示。
简单地说,如果网站设置了robots文件,并且是不允许蜘蛛抓取的,而这个网站对用户有是有需要的,百度就是根据你输入的网址或相关关键字展示这个网站,不过,这和其它网站不一样,搜索的结果只出现title中的部分关键字,并且不会出现这个网站的元标签描述部分。
对应的元标签描述部分将由最新上线的robots提示代替,比如,用户在搜索淘宝网时,出现“由于该网站的robots.txt文件存在*指令,系统无法提供该页面的内容描述 - 了解详情”字样。
扩展资料:
撰写robots.txt的注意事项:
一、合理的使用robots.txt文件,可以有效的避免用户从搜索引擎进入网站,不经过登录就能进行各种操作,因为有些网站需求必须登录才能操作,这样也方便管理用户。
二、有时候可以使用robots.txt防止搜索引擎抓取动态页面,而只允许它抓取伪静态页面。因为现在很多时候,由于网站的需求的网页是伪静态。
三、需要将搜索引擎爬虫远离网站的程序文件和后台管理文件,这样可以保证整个网站的正常运行。
四、为了节省服务器的资源,可以将一些想保护的文件分类放入特定的文件夹,然后使用Disallow:/语法进行有效的阻止,包括数据库文件、模版文件、CSS样式文件、导航图片和背景图片等等。
五、还可以设置允许那个或者那几个搜索引擎蜘蛛访问抓取网站的内容,避免一些垃圾的搜索引擎对网站内容无*抓取,而导致网站服务器性能降低甚至瘫痪的现象发生。
六、对于一些初学者来说,robots.txt的语法不怎么熟悉,写的不正确或者不规范,可以直接在网站的根目录下上传一个空的文本文档 ,把文档的名称写为小写的robots.txt。
热心网友 时间:2023-11-24 09:17
这个对用户来说不影响的,只是针对搜索引擎,不让它们抓取里面的内容,,比方,你搜索感冒,百度之类的搜索引擎出现的东西都是其他网站里面的东西,这些东西都是人写进去的,然后让搜索引擎来抓取,那么它就可以呈现出里面的内容,至于淘宝,这个对业内来说是比较特别的,它的robots.txt*的搜索引擎的抓取,意思就是说淘宝里面的东西不会在搜索引擎直接出现,,从商业角度来说,如果让搜索引擎抓取,淘宝的很多页面就会少很多流量,大部分用户可以直接从搜索引擎进入淘宝商品页面,那么淘宝首页那些广告意义也没那么大了,淘宝商家也会很苦的,全跑去做搜索引擎优化!按照robots.txt指令来说,就算你用百度之类的来搜索淘宝也不会出现的淘宝这个网站的,但是人家的知名度在哪里,要是百度搜索不出来这是个啥情况?立马换搜索引擎搜索,这样的话慢慢的用户就会习惯上其他的搜索引擎,导致百度用户的流失,所以百度也很无奈的给淘宝做了个入口。 说了这么多,一句话不影响人们使用淘宝,这个东西只是为搜索引擎诞生的,就好比百度之前不让好搜抓取一些百度旗下的内容,比如百度知道,百度百科,百度贴吧,但是好搜违反了业内公认的robots.txt指令,抓取了百度知道等等的一些内容,百度让360赔了钱-------