精华推荐：清洁网络需要做好内容过滤

发布: 2007-7-13 15:18 | 作者: 张勇 | 来源: ccidnet | 查看: 15次 | 进入软件测试论坛讨论

当前，内容过滤正在成为越来越热门的话题。据IDC的分析统计预测，作为安全领域的一个重要分支，今年，内容安全市场的市值将达到６５亿美元。内容过滤仿佛成了万能良药，能够解决互联网带来的一切的内容相关问题。市场上的防火墙、路由器、交换机、邮件网关、代理服务器等网络产品几乎都已经加入了内容过滤的功能。每个厂商都提供不同的产品，而且有着迥然不同的技术观点和宣传方式。另外，电信运营商也在进行着内容过滤，这是和每一个网民都息息相关的。那么，我们不仅要问，到底什么才是内容过滤，如何才能够有效的进行内容过滤，内容安全的明天又是什么样子呢？本文从技术的角度对内容过滤进行分析，以飨读者。

企业网络内容过滤

在每一个互联网访问的网络边缘（企业/学校网络边缘、网吧网络出口），都可以部署内容过滤工具。这些工具一般是分析网络数据流中包含的HTTP数据包，对数据包头中的IP地址、URL、文件名、HTTP methods进行访问控制。

在网络边缘的内容过滤产品有两种表现方式，旁路式（Passby）和穿透式（Passthrough）。旁路式内容过滤产品是独立的，它监听网络上所有信息，并有选择的对基于TCP的连接进行阻断。穿透式内容过滤产品依赖于其他网络边缘处的基础平台。穿透式内容过滤产品根据网络边缘接入基础平台的访问请求，作出允许或禁止的判断，然后由这些平台执行过滤的动作。

旁路式

穿透式

那么，内容过滤产品如何作出允许或禁止的判断呢？不同的厂商有着不同的解决方案。从理论上来讲，最理想的产品能够实时对网页内容进行分析，然后判断是否允许用户访问。例如，用户访问一个色情网站，内容过滤产品分析这个网站中页面的内容，发现其中包含了大量的色情词汇和图片信息，从而判断这是一个不良网站需要进行过滤。这是一个理想的状态。但是，在具体的生产应用环境当中，实时分析网页内容并进行过滤是不现实的，这个问题主要体现在对网页内容实时分析给用户浏览体验带来的延时是不可以接受的。对文字内容进行比较分析需要大量的计算资源，更不用说图片信息。试想一下每一个用户每点击一个链接都要等待数十秒钟，这还是比较好的情况。一般的企业网络内每秒钟都会有数个到数十个HTTP连接建立，这对实时的内容分析来说是不可完成的任务。

所以，绝大部分的厂商采取了一个折中的办法，他们事先对访问量较大、名气较大的网站和网页的内容做分类的工作，然后把URL、IP地址和内容分类对应起来。当用户访问这些网站上的页面时，内容过滤产品就可以根据事先的分类进行过滤，达到按内容过滤的目的。

互联网骨干网络过滤

内容过滤除了在个人电脑和企业网络中的应用，在互联网骨干上也可以实现相同的功能。互联网骨干的主要任务是在保证可连通性的同时，尽可能快速的提供数据交换通道，这就要求网络结构和配置尽可能简单。属于网络高层应用的内容过滤本来不应该在互联网骨干上部署实施。但是，出于国家安全的需要，对一些网站还是需要进行屏蔽。电信运营商在互联网骨干上使用的内容过滤技术主要是DNS过滤和IP地址过滤：互联网骨干DNS服务器拒绝解析指定URL列表；通过ACL拒绝到指定IP地址的连接。这些手段轻微的影响互联网性能，但是技术和现实中也是可以实现和接受的。

另外，现在中国有些地区的宽带运营商还提供“绿色上网”服务，为申请此项服务的用户提供内容过滤的功能，以保护青少年和儿童。这些“绿色上网”服务的原理同以上的内容过滤原理是一样的，不同之处在于每个用户的可定制化功能。还有些运营商采取了“投诉”的方式来维护更新不良内容网址，通过奖励上网费用和时间的方式来鼓励宽带用户投诉不良网站。这也是一个很好的思路和现实的做法。

技术难点和技术趋势

从以上过滤手段来看，它们都受制于内容分类的效率和准确性。如何提高内容分类的效率和准确性，是各个厂商钻研的难题。

实际上，每个月都有新注册的超过100万个网站出现在互联网上，也就是说互联网是变化的，这种变化是永不停息的。我们不可能把所有的网站和网页都进行归类并放在数据库当中，这样的话，这个数据库的规模将会远远超过实际应用中硬件平台性能所能承受的最大限制。最好的办法还是挑选一部分网站放在数据库当中，这些网站至少具有两个特征：访问量比较大；包含不良内容。对于那些访问量不大，或者内容“不咸不淡”的网站，大可以忽略不计。

在变化之外，每个企业或者每个人的浏览习惯都是不一样的，也可能有些人特别喜欢浏览一些冷门的网站，这就涉及一个个性化的问题。为了对这些访问进行控制和过滤，内容过滤产品本身还要具有一定的智能，能够自动分析归类这些网站的内容，并对用户的访问进行过滤。这样的分析结果应该保留在访问者的本地内容过滤设备上，而不是上传同步到所有的用户。这样的话，所有用户就有一个集中的公共数据库，包含了绝大部分热门网站；每个用户还有一个分散的私人数据库，包含了自己的浏览分析归类数据。