问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

如何写网站robots.txt

发布网友 发布时间:2022-04-21 22:24

我来回答

2个回答

懂视网 时间:2022-04-22 02:45

robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:http://www.csswebs.org/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.csswebs.org
# All robots will spider the domain
User-agent: *
Disallow:
以上文本表达的意思是允许所有的搜索机器人访问www.csswebs.org站点下的所有文件。
具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:
Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>
其中
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

热心网友 时间:2022-04-21 23:53

robots.txt撰写方法:
(1),允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robots.txt。
User-agent:*Disallow:或者User-agent:*Allow:/
(2),禁止所有搜索引擎访问网站的所有部分。
User-agent:*Disallow:/
(3),禁止百度索引你的网站。
User-agent:BaispiderDisallow:/
(4),禁止Google索引你的网站。
User-agent:GooglebotDisallow:/
(5),禁止除百度以外的一切搜索引擎索引你的网站。
User-agent:BaispiderDisallow:User-agent:*Disallow:/
(6),禁止除Google以外的一切搜索引擎索引你的网站。
User-agent:GooglebotDisallow:User-agent:*Disallow:/
(7),禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。
User-agent:*Disallow:/admin/Allow:/images/
(8),禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。
User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$
(9),禁止索引网站中所有的动态页面(这里*的是有“?”的域名,如:index.php?id=8)。
User-agent:*Disallow:/*?*
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
男人醉女人累原歌 我大概在2009年玩的很早的一款冒险动作游戏有一关是埃及狗头人主角捡武... 提成点数怎么算公式 Huamei/华美每日粗粮粗纤维饼-适用对象 0pp01107格式化后成白屏且不能开机怎么办 五邑大学是市属还是省属 五邑大学校区有几个 窝瓜焖荷包蛋怎么做? 达科塔·芬妮简要生平 湖北自动冷库多少钱 要办一场婚姻与家庭教育的讲座主题选择哪些会好一些 剑网3镖师剑是不是最好的武器呀(除去橙色武器) 求作:关颖,生日快乐。藏头诗 以我,爱,杨,颖开头的古诗词有 剑网三大侠们来看看! 剑网三冲斗剑哪个本出? 剑3冲斗剑哪个副本出的 樱花卫厨怎么样? 剑网3纯阳用的冲斗剑好还是146品的斩风好? 微信公众平台怎么给指定发信息 生二胎的准备食用碘盐的国家标准成分 BYD什么意思 碘盐的主要成分是什么 江西智慧医保怎么更改参保地 byd网友调侃含义是什么? 下载江西智慧医保App如何注册 江西智慧医保显示电子凭证服务尚未开通 电视上江西智慧作业怎么登录? 红豆,黑米,小米,意仁,意米,花生米加在一起煮粥给小宝贝吃可以吗? 江西智慧医保苹果下载不了吗 莲蓉是一种什么食物 被子5×7是多少米乘多少米 莲蓉是什么做的 莲蓉馅月饼是甜还是咸 莲蓉馅有点甜怎么办? @莲蓉馅料食品厂,有没有招聘师傅的? 根据配方炒莲蓉馅,放三次油吸收都还好,炒到最后居然会出油,怎么回事?炒出来的馅还是感觉有点偏干 月饼添加什么防腐剂可以保持不霉! 为了考公务员函授什么专业比较好 手机yy怎样取消关注的频道 读大专函授应该读什么好 我在YY创了个频道怎么解散啊 YY自己创的频道如何解散 3.4YY怎么解散频道 怎么解散YY频道? 湖北恩施职业技术学校的专业有哪些 湖北科技职业学院优势专业排名及最好的专业有哪些 有关于奥特曼的小说有哪些 有什么关于奥特曼的小说300多章以上的 奥特曼小说最爽的一本