FreeBSD连载(82):数据处理方式

发表于:2007-07-01来源:作者:点击数: 标签:
数据处理方式 当浏览器通过各种请求方法,试图从服务器获得数据的时候,服务器就必须将正确的数据返回给浏览器。浏览器并不关心服务器是如何进行处理的,服务器可以返回一个预先编辑好的HTML文档,也能根据请求动态生成返回的数据。而WWW的一大特点就是能用

数据处理方式

  当浏览器通过各种请求方法,试图从服务器获得数据的时候,服务器就必须将正确的数据返回给浏览器。浏览器并不 关心服务器是如何进行处理的,服务器可以返回一个预先编辑好的HTML文档,也能根据请求动态生成返回的数据。而WW W的一大特点就是能用来传送多媒体数据,并且这些数据的传送是完全透明的,通过同样的HTTP连接,可以传送不同格式 的声音、图象等数据。当服务器仅仅用于返回静态的HTML文档的时候,浏览器能够很容易的识别其数据类型,但当服务器 不但用于返回静态的HTML文档,还可以动态返回各种类型的多媒体信息时,浏览器就不能仅仅从URL请求本身上判断服 务器将会返回何种数据了。

  服务器和浏览器之间是采用了另外的方式来标识数据的类型,这种方式下通过在传输真正的数据之前,预先传输一个 数据的MIME类型的方法,来标识数据类型。

  • 多媒体文件格式MIME

  最早的HTTP协议中,并没有附加的数据类型信息,所有传送的数据都被客户程序解释为超文本标记语言HTML 文档,而为了支持多媒体数据类型,HTTP协议中就使用了附加在文档之前的MIME数据类型信息来标识数据类型。

  MIME意为多目Inte.net邮件扩展,它设计的最初目的是为了在发送电子邮件时附加多媒体数据,让邮件 客户程序能根据其类型进行处理。然而当它被HTTP协议支持之后,它的意义就更为显著了。它使得HTTP传输的不仅是 普通的文本,而变得丰富多彩。

  每个MIME类型由两部分组成,前面是数据的大类别,例如声音audio、图象image等,后面定义具体的 种类。

常见的MIME类型

超文本标记语言文本.html,.htmltext/html
普通文本.txttext/plain
RTF文本.rtfapplication/rtf
GIF图形.gifimage/gif
JPEG图形.ipeg,.jpgimage/jpeg
au声音文件.auaudio/basic
MIDI音乐文件mid,.midiaudio/midi,audio/x-midi
RealAudio音乐文件.ra, .ramaudio/x-pn-realaudio
MPEG文件.mpg,.mpegvideo/mpeg
AVI文件 .avivideo/x-msvideo
GZIP文件.gzapplication/x-gzip
TAR文件.tarapplication/x-tar

  Internet中有一个专门组织IANA来确认标准的MIME类型,但Internet发展的太快,很多应 用程序等不及IANA来确认他们使用的MIME类型为标准类型。因此他们使用在类别中以x-开头的方法标识这个类别还 没有成为标准,例如:x-gzip,x-tar等。事实上这些类型运用的很广泛,已经成为了事实标准。只要客户机和服 务器共同承认这个MIME类型,即使它是不标准的类型也没有关系,客户程序就能根据MIME类型,采用具体的处理手段 来处理数据。而Web服务器和浏览器(包括操作系统)中,缺省都设置了标准的和常见的MIME类型,只有对于不常见的 MIME类型,才需要同时设置服务器和客户浏览器,以进行识别。

  由于MIME类型与文档的后缀相关,因此服务器使用文档的后缀来区分不同文件的MIME类型,服务器中必须定 义文档后缀和MIME类型之间的对应关系。而客户程序从服务器上接收数据的时候,它只是从服务器接受数据流,并不了解 文档的名字,因此服务器必须使用附加信息来告诉客户程序数据的MIME类型。服务器在发送真正的数据之前,就要先发送 标志数据的MIME类型的信息,这个信息使用Content-type关键字进行定义,例如对于HTML文档,服务器 将首先发送以下两行MIME标识信息,这个标识并不是真正的数据文件的一部分。

  Content-type: text/html

  注意,第二行为一个空行,这是必须的,使用这个空行的目的是将MIME信息与真正的数据内容分隔开。

  • CGI与SSI

  普通服务器返回的文档为静态的HTML文档,文档中的内容为静态的。而很多情况下,需要根据浏览器发送请求时 的条件改变浏览器返回的文档的内容。有些情况下,服务器能提供更复杂的功能,如通过浏览器登记用户的信息等,这些情况 就要求Web服务器能根据请求运行一些特定的应用程序,来完成更复杂的服务功能。

  返回动态文档的基本方法是使用通用网关接口CGI,它定义了Web服务器和由它执行的程序共享信息的方法。这 样Web服务器可以根据浏览器的请求,在服务器端运行CGI程序,这个程序可以根据HTTP服务器设置的各种环境变量 、服务器磁盘文件中保存的相关信息、以及服务器输入的客户端的请求信息,创建动态网页,并通过服务器返回给浏览器。CGI 标准十分简单,一个CGI程序就是一个标准Unix程序,它从命令行参数和标准输入中获得用户在浏览器上输入的信 息,使用环境变量获得当前浏览客户的设置情况,最后使用标准输出输出它创建的动态网页。因此可以使用各种编程语言编写 CGI程序,如sh、C或Perl。

  可以使用C这样的编译型语言来编写CGI程序,也可以使用解释型的语言来编写CGI程序,这两种方法各有优劣 。使用C编程效率较高,但由于要处理的内容大部分为文本,因此需要大量的编写、调试工作,效率不高。而解释型语言编写 、调试程序比较容易,并且由于大部分解释语言都有强大的内建文本处理功能,本身就比较适合处理文档,因此解释语言在CGI 编写方面有一定的优势。例如Perl语言本身功能就十分强大,是用于CGI编程一种主要编程语言工具。但是解释型 的语言本身存在效率问题,服务器执行解释型的CGI程序时首先要将解释语言器载入内存,这增加了服务器的额外开销。

  CGI需要启动一个额外的CGI程序以创建动态文档,由于每处理一个CGI请求都要启动一个进程,这样就加重 了服务器端的负担。另一种产生动态文档的方式是使用服务器端分析文档,HTTP服务器不启动外部CGI程序来产生动态 文档,而是由服务器本身分析要返回的html文档,对其中的一些特殊标记进行解释,并根据情况生成为符合HTML语法 的具体数据,从而产生动态HTML文档。显然服务器端分析文档需要特殊功能的服务器,因此与CGI不同,并不存在服务 器分析文档的标准。常见的服务器端分析方式有SSI、PHP、ASP等,然而由于这并不是标准,Web服务器可以有选 择的支持这些特殊功能。

  最基本的服务器分析文档标准为SSI(Server Side Include),它能快速的处理一些简单的 标志,使得创建动态HTML文档更为容易。SSI主要是采用宏替换的方式处理网页,当一个使用SSI处理过的HTML 文件被返回给浏览器时,有些与文档本身相关的信息,如文档最后一次修改时间等原本在HTML文档中使用特殊的标记来表 示的信息,都会被替换为正确的数据。

未完,待续。。。  

原文转自:http://www.ltesting.net