怎么屏蔽网络机器人搜索？_Unix系统

怎么屏蔽网络机器人搜索？

发表于：2007-05-26来源：作者：点击数：标签：

请问大家怎么屏蔽网络机器人搜索？怎么防范像针对IE的攻击？我眼巴巴的看着每天Erro.log膨胀，不知道有什么办法可以不纪录这个日志？谢谢！ mb 回复于：2003-09-28 09:07:37 什么日志，改一下syslog.conf hmkart 回复于：2003-09-28 09:36:12 什么网络机器

请问大家怎么屏蔽网络机器人搜索？怎么防范像针对IE的攻击？

我眼巴巴的看着每天Erro.log膨胀，不知道有什么办法可以不纪录这个日志？

谢谢！

mb 回复于：2003-09-28 09:07:37

什么日志，改一下syslog.conf

hmkart 回复于：2003-09-28 09:36:12

什么网络机器人搜索？是指google一样的搜索引擎吗？
一般这些spider都是按robots协议去抓取的,在你站点根目录下放
robots.txt文件,写上你要屏蔽的目录就可以了

wangbin 回复于：2003-09-28 09:58:11

不知道什么样的，老是在搜索robot.txt 整的我的Apache不停的出现错误，平均每分钟日志增长3K,有什么办法限制呢！

我临时是这样做的，使用轮番日志

CustomLog "|/www/bin/rotatelogs /www/logs/secfocus/aclearcase/" target="_blank" >ccess_log 86400" common

　　

wangbin 回复于：2003-09-28 10:01:14

还有一个问题请教，我删除了apache的日志，他就不再记录了，这样会不会产生内存分配的错误？会不会导致系统崩溃？

shiv 回复于：2003-09-28 10:23:06

应该不会的
日志和内存分配有关系吗？

找工作ing 回复于：2003-09-28 10:30:36

做人要有志气，怎么能随便就跪呢？

daisy_chi 回复于：2003-09-28 14:50:21

还是没有答案
我的APACHE也是这样的

kinux 回复于：2003-09-28 15:15:35

newsyslog 不就行了吗

wangbin 回复于：2003-09-28 17:54:51

编辑 /etc/crontab

采取定时执行 newsyslog

HonestQiao 回复于：2003-09-28 17:57:16

禁止搜索引擎收录的方法

一．什么是robots.txt文件?

　　搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。

　　您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

二. robots.txt文件放在哪里?

　　robots.txt文件应该放在网站根目录下。举例来说，当robots访问一个网站（比如http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

网站 URL 相应的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

三. robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

　　　　"<field>:<optionalspace><value><optionalspace>"。

　　在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:
　　该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent：*"这样的记录只能有一条。

Disallow :
　　该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow: /help/"则允许robot访问/help.html，而不能访问/help/index.html。
任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

四. robots.txt文件用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

　　　下载该robots.txt文件 User-agent: *
Disallow: /

例2. 允许所有的robot访问

(或者也可以建一个空文件 "/robots.txt" file)

User-agent: *
Disallow:

例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问 User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /

例5. 一个简单例子

　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。
　　需要注意的是对每一个目录必须分开声明，而不要写成 "Disallow: /cgi-bin/ /tmp/"。
　　User-agent:后的* 具有特殊的含义，代表"any robot"，所以在该文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"这样的记录出现.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

wangbin 回复于：2003-09-28 18:42:22

原来这样！谢谢！

原文转自：http://www.ltesting.net

相关文章

漫画赏析：Linux 内核到底长啥样

Linux的进程优先级

Windows原生运行Linux的技术细节

Linux常用性能调优工具索引

top使用技巧

bash遍历目录

周排行

月排行

下载

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

MBT基于模型的测试介绍资料

iso29119相关介绍性资料

HP QTP 10 中文版官方中文补丁

HP QTP 10 英文版下载地址

HP ALM 11 官方中文版下载地址

Quality Center 9.0中文版下载地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安装

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

软件测试沙龙 More>>

新浪微博 More>>

热门标签

功能测试

性能测试

安全测试

本地化测试

游戏测试

web测试

单元测试

敏捷测试

测试用例

测试模版

测试管理

测试工具

《测试团队的招聘与管理

《我们应该如何构建我们

软件测试 > 测试开发技术 > 软件测试环境搭建 > Unix系统 >

怎么屏蔽网络机器人搜索？