基于反相代理的Web缓存加速(上)

发表于:2007-05-26来源:作者:点击数: 标签:
基于反相代理的Web缓存加速(上) 内容摘要: 对于一个日访问量达到百万级的网站来说,速度很快就成为一个瓶颈。除了优化内容发布系统的应用本身外,如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布,速度上的提升效果将是显著的,因为一个动

基于反相代理的Web缓存加速(上)

内容摘要:

对于一个日访问量达到百万级的网站来说,速度很快就成为一个瓶颈。除了优化内容发布系统的应用本身外,如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布,速度上的提升效果将是显著的,因为一个动态页面的速度往往会比静态页面慢2-10倍,而静态网页的内容如果能被缓存在内存里,访问速度甚至会比原有动态网页有2-3个数量级的提高。

后台的内容管理系统的页面输出遵守可缓存的设计,这样就可以把性能问题交给前台的缓存服务器来解决了,从而大大简化CMS系统本身的复杂程度。

静态缓存和动态缓存的比较

静态页面的缓存可能有2种形式:其实主要区别就是CMS是否自己负责关联内容的缓存更新管理。

  • 静态缓存:是在新内容发布的同时就立刻生成相应内容的静态页面,比如:2003年3月22日,管理员通过后台内容管理界面录入一篇文章后,就立刻生成http://www.chedong.com/tech/2003/03/22/001.html这个静态页面,并同步更新相关索引页上的链接。

  • 动态缓存:是在新内容发布以后,并不预先生成相应的静态页面,直到对相应内容发出请求时,如果前台缓存服务器找不到相应缓存,就向后台内容管理服务器发出请求,后台系统会生成相应内容的静态页面,用户第一次访问页面时可能会慢一点,但是以后就是直接访问缓存了。

    如果去ZDNet等国外网站会发现他们使用的基于Vignette内容管理系统都有这样的页面名称:0,22342566,300458.html。其实这里的0,22342566,300458就是用逗号分割开的多个参数:

    第一次访问找不到页面后,相当于会在服务器端产生一个doc_type=0&doc_id=22342566&doc_template=300458的查询,而查询结果会生成的缓存的静态页面:0,22342566,300458.html


    静态缓存的缺点:

  • 复杂的触发更新机制:这两种机制在内容管理系统比较简单的时候都是非常适用的。但对于一个关系比较复杂的网站来说,页面之间的逻辑引用关系就成为一个非常非常复杂的问题。最典型的例子就是一条新闻要同时出现在新闻首页和相关的3个新闻专题中,在静态缓存模式中,每发一篇新文章,除了这篇新闻内容本身的页面外,还需要系统通过触发器生成多个新的相关静态页面,这些相关逻辑的触发也往往就会成为内容管理系统中最复杂的部分之一。

  • 旧内容的批量更新: 通过静态缓存发布的内容,对于以前生成的静态页面的内容很难修改,这样用户访问旧页面时,新的模板根本无法生效。在动态缓存模式中,每个动态页面只需要关心,而相关的其他页面能自动更新,从而大大减少了设计相关页面更新触发器的需要。

    以前做小型应用的时候也用过类似方式:应用首次访问以后将数据库的查询结果在本地存成一个文件,下次请求时先检查本地缓存目录中是否有缓存文件,从而减少对后台数据库的访问。虽然这样做也能承载比较大的负载,但这样的内容管理和缓存管理一体的系统是很难分离的,而且数据完整性也不是很好保存,内容更新时,应用需要把相应内容的的缓存文件删除。但是这样的设计在缓存文件很多的时候往往还需要将缓存目录做一定的分布,否则一个目录下的文件节点超过3000,rm*都会出错。

    这时候,系统需要再次分工,把复杂的内容管理系统分解成:内容输入和缓存这2个相对简单的系统实现。

  • 后台:内容管理系统,专心的将内容发布做好,比如:复杂的工作流管理,复杂的模板规则等……

  • 前台:页面的缓存管理则可以使用缓存系统实现

    ______________________             ___________________
    |Squid Software cache| |F5 Hardware cache|
    ---------------------- -------------------
    \ /
    \ ________________ /
    |ASP |JSP |PHP |
    Content Manage System
    ----------------


    所以分工后:内容管理和缓存管理2者,无论哪一方面可选的余地都是非常大的:软件(比如前台80端口使用SQUID对后台8080的内容发布管理系

    统进行缓存),缓存硬件,甚至交给akamai这样的专业服务商。

    面向缓存的站点规划

    一个利用SQUID对多个站点进行做WEB加速http acceleration方案:

    原先一个站点的规划可能是这样的:

    200.200.200.207 www.chedong.com

    200.200.200.208 news.chedong.com

    200.200.200.209 bbs.chedong.com

    200.200.200.205 images.chedong.com

    面向缓存服务器的设计中:所有站点都通过外部DNS指向到同一个IP:200.200.200.200/201这2台缓存服务器上(使用2台是为了冗余备份)

                              _____________________   ________
    www.chedong.com 请求 \ | cache box | | | / 192.168.0.4 www.chedong.com
    news.chedong.com 请求 -| 200.200.200.200/201 |-|firewall| - 192.168.0.4 news.chedong.com
    bbs.chedong.com 请求 / | /etc/hosts | | box | \ 192.168.0.3 bbs.chedong.com
    --------------------- --------


    工作原理:

    外部请求过来时,设置缓存根据配置文件进行转向解析。这样,服务器请求就可以转发到我们指定的内部地址上。

    在处理多虚拟主机转向方面:mod_proxy比squid要简单一些:可以把不同服务转向后后台多个IP的不同端口上。

    而squid只能通过禁用DNS解析,然后根据本地的/etc/hosts文件根据请求的域名进行地址转发,后台多个服务器必须使用相同的端口。

    使用反向代理加速,我们不仅可以得到性能上的提升,而且还能获得额外的安全性和配置的灵活度:

  • 配置灵活性提高:可以自己在内部服务器上控制后台服务器的DNS解析,当需要在服务器之间做迁移调整时,就不用大量修改外部DNS配置了,只需要修改内部DNS实现服务的调整。

  • 数据安全性增加:所有后台服务器可以很方便的被保护在防火墙内。

  • 后台应用设计复杂程度降低:原先为了效率常常需要建立专门的图片服务器images.chedong.com和负载比较高的应用服务器bbs.chedong.com分离,在反向代理加速模式中,所有前台请求都通过缓存服务器:实际上就都是静态页面,这样,应用设计时就不用考虑图片和应用本身分离了,也大大降低了后台内容发布系统设计的复杂程度,由于数据和应用都存放在一起,也方便了文件系统的维护和管理。

    基于Apache mod_proxy的反向代理缓存加速实现

    Apache包含了mod_proxy模块,可以用来实现代理服务器,针对后台服务器的反向加速安装apache 1.3.x 编译时:

    --enable-shared=max --enable-module=most

    注:Apache2.x中mod_proxy已经被分离成mod_proxy和mod_cache:同时mod_cache有基于文件和基于内存的不同实现

    创建/var/www/proxy,设置apache服务所用户可写

    mod_proxy配置样例:反相代理缓存+缓存

    架设前台的www.example.com反向代理后台的www.backend.com的8080端口服务。

    修改:httpd.conf

    <VirtualHost *>
    ServerName www.example.com
    ServerAdmin admin@example.com
    # reverse proxy setting
    ProxyPass / http://www.backend.com:8080/
    ProxyPassReverse / http://www.backend.com:8080/
    # cache dir root
    CacheRoot "/var/www/proxy"
    # max cache storage
    CacheSize 50000000
    # hour: every 4 hour 
    CacheGcInterval 4
    # max page expire time: hour
    CacheMaxExpire 240
    # Expire time = (now - last_modified) * CacheLastModifiedFactor 
    CacheLastModifiedFactor 0.1
    # defalt expire tag: hour
    CacheDefaultExpire 1
    # force complete after precent of content retrived: 60-90%
    CacheForceCompletion 80
    CustomLog /usr/local/apache/logs/dev_access_log combined
    </VirtualHost>


    基于Squid的反向代理加速实现

    Squid是一个更专用的代理服务器,性能和效率会比Apache的mod_proxy高很多。

    如果需要combined格式日志补丁:

    http://www.squid-cache.org/mail-archive/squid-dev/200301/0164.html

    squid的编译:

    ./configure --enable-useragent-log  --enable-referer-log 
    --enable-default-err-language=Simplify_Chinese \ 
    --enable-err-languages="Simplify_Chinese English" --disable-internal-dns  
    make
    #make install
    #cd /usr/local/squid
    make dir cache
    chown squid.squid *
    vi /usr/local/squid/etc/squid.conf
    在/etc/hosts中:加入内部的DNS解析,比如:
    192.168.0.4 www.chedong.com 
    192.168.0.4 news.chedong.com
    192.168.0.3 bbs.chedong.com
    ---------------------cut here----------------------------------
    # visible name
    visible_hostname cache.example.com
    # cache config: space use 1G and memory use 256M
    cache_dir ufs /usr/local/squid/cache 1024 16 256 
    cache_mem 256 MB
    cache_effective_user squid
    cache_effective_group squid
    
    http_port 80
    httpd_accel_host virtual
    httpd_accel_single_host off
    httpd_accel_port 80
    httpd_accel_uses_host_header on
    httpd_accel_with_proxy on
    # accelerater my domain only
    acl acceleratedHostA dstdomain .example1.com
    acl acceleratedHostB dstdomain .example2.com
    acl acceleratedHostC dstdomain .example3.com
    # accelerater http protocol on port 80
    acl acceleratedProtocol protocol HTTP
    acl acceleratedPort port 80
    # access arc
    acl all src 0.0.0.0/0.0.0.0
    # Allow requests when they are to the accelerated machine AND to the
    # right port with right protocol
    http_access allow acceleratedProtocol acceleratedPort acceleratedHostA
    http_access allow acceleratedProtocol acceleratedPort acceleratedHostB
    http_access allow acceleratedProtocol acceleratedPort acceleratedHostC
    # logging
    emulate_httpd_log on
    cache_store_log none
    # manager
    acl manager proto cache_object
    http_access allow manager all
    cachemgr_passwd pass all
    
    ----------------------cut here---------------------------------
    创建缓存目录:
    /usr/local/squid/sbin/squid -z
    启动squid
    /usr/local/squid/sbin/squid
    停止squid:
    /usr/local/squid/sbin/squid -k shutdown
    启用新配置:
    /usr/local/squid/sbin/squid -k reconfig
    通过crontab每天0点截断/轮循日志:
    0 0 * * * (/usr/local/squid/sbin/squid -k rotate)

  • 原文转自:http://www.ltesting.net