网管生活麻辣烫 不当“后勤”网管

发表于:2007-07-13来源:作者:点击数: 标签:
网络烽火连天不休,网管救急一马当先。冲锋于各大网络战事最前线的网管员,他们对于这一职业的思考如何呢?让我们来关注这一群体的生活麻辣烫。 采访对象一:装甲兵工程学院网络中心 陈维义 网络广播风暴 核心交换机快撑不住了,网络瘫痪了!听罢主任一声急

网络烽火连天不休,网管救急一马当先。冲锋于各大网络“战事”最前线的网管员,他们对于这一职业的思考如何呢?让我们来关注这一群体的生活麻辣烫。

 

采访对象一:装甲兵工程学院网络中心 陈维义

 

网络广播风暴

 

“核心交换机快撑不住了,网络瘫痪了!”听罢主任一声急吼,小陈运速可媲美奔六的脑袋嗡的一声大了,心下暗叫不好,自己最担心的网络广播事故最终还是不幸降临。

 

来不及细想,小陈立马打开网络流量监测界面,扫描网络异常情况,发现了如下信息:一可疑交换机端口,正频繁遭受大量广播包轰炸。通过MAC地址确定,可以锁定其故障源——处于模拟仿真实验室中的某台主机设备。

 

小陈一阵风似冲至实验室,第一时间切断了与实验室各主机相连的交换机电源。长舒口气,一场网络故障在小陈匆忙的东奔西走中得到了最快处理,损失率降至了最低。

 

有过一场敢死队员的网络救火经历,小陈开始暗暗琢磨这场事故的幕后黑手为谁。网络为何如此不堪一击?是否因为网络部署合理性存在问题?好刨根问底的小陈在咨询过一轮身边朋友后,挖出了该网络故障的原罪——网络规划问题。

 

小陈所在学校的网络环境是这样的:98年学校就超前实现了千兆骨干网,核心设备采用Intel的二层交换机,后来由于楼宇间的分支式管理需求,使用了网捷的智能边缘三层交换机,实现了网络的去中心化。

 

但由于当时园区网还只是一个基于第二层的交换式快速以太网络,全网属于同一个广播域,在这样的局域网上通信,ARP请求帧是以广播方式发送的,一旦某节点出现问题,就会迅速波及整个广播域,造成连接的交换机不堪工作重负,酿成网络事故。这样的“特殊”网络架构意味着网络存在着极大隐患,给网管带来很多不便。

 

IP地址动态分配问题

 

“网络又被攻击了,到底哪个家伙?”收到网络警报,小陈一脸怒气。

 

通过追踪攻击对象,小陈查出了其对应的IP地址,但一时却无法准确判断该IP地址所在的物理位置。

 

原因还在于整个校园网采用IP地址动态分配方式,配置了DHCP服务器。这种方式对网管而言避免了手动分配IP地址,看似“偷懒宝鉴”,但给网络管理留下了不少“后遗症”。

 

就拿眼前这一棘手问题来看,网络攻击目标难以准确定位,安全与效率双效失衡。

 

升级改造工程

 

碰到了两个典型网络故障问题,也让小陈感受到了网管之难。而这种困难正是网络部署的不合理导致的。如何根据具体应用改善网络部署成为了小陈考虑的重点。在网络中心两位主任的指导下,学校的整体网络进行了一番升级改造。目前,校园网结构是:骨干网更新为三层核心交换机,提升了网络通道职能强度。并且对重要楼宇的交换机进行了更新。并且在核心交换机上设置多个VLAN,通过交换机端口进行划分,具体到各个楼宇,进行VLAN的细化分配。通过优先级制定来保证音、视频网络应用的流畅。

 

网管的矛盾

 

经历过一番网络设备“换血”,如今的校园网更显朝气。但是小陈的工作量却未见减轻。依旧不断接到网络故障“投诉”,依旧不断地奔走于各节点网络设备之间。基于设备的网络管理让小陈心生倦意。而且网络管理中的矛盾仍在不断暴露。据小陈介绍,目前的网管困境有三:

 

其一、目前无论是企业网,还是校园网少有部署统一的网管平台,实现集中报警功能。因为,小陈所在的网络环境决定着其管理工作还是基于网络设备的管理,当网络设备出现故障时,常规的做法是按照章程,找出问题并解决。对管理的主动性不够。当然网管中心也已一直考虑运用网管平台,但是由于设备功能的继承性无法保证,以及定制性服务缺乏等因素,该想法暂先搁浅。

 

其二、动态IP地址分配的方式导致了网管员对用户的管理能力比较弱。另一方面,对于终端用户的最终需求,网管人员也无法准确把握,双方面临“信息不对称”现状。网管职能与网络用户的个人隐私保障存在着悖论。

 

其三、无线网络安全性、便捷性存在着失衡状况。由于安全隐患,无线网络也只是在小范围部署,并且与校园内部网络隔开,确保网络安全。

 

心声:不当“后勤”网管

 

曾经踌躇满志,如今沦为“后勤”网管。如果做份网管员职业生涯规划,小陈对自己的这份答卷显然不太满意。相信很多网管员对于这种体会也能感同身受。那么如何在有限的网管生涯中寻求更大的拓展空间?

 

关于这个问题,在网管员群体里面还是有一定代表性的,而且不仅局限于这个群体,可能在很多年轻人中都存在这样一个共性的问题。在这样的情况下,小陈认为每一个人首先要努力提升自身能力,切忌好高骛远,而且当面临职业生涯的更多选择时,一定要有自己的规划,并且一定要去学习培训、提高。这样才有可能在新的平台上抓住机遇,因为在如今的学习型社会中,只有把自己充实起来,提升起来,才能拥有更多机会,如果站在角落里,钻进死胡同,就可能永远找不到一个有效方法。

 

 

 

采访对象二:北京阳光加信软件技术有限公司 胡顺良

理性应对闪电战

电话那头,胡顺良的声音显得有些腼腆。他说,作为网络管理人员,我们更像是急症室的医生亦或消防队员,在最快的时间里解决问题,否则耽误同事工作,我们每时每刻都要冷静的面对这些疑难问题,只有冷静的去分析思考才能很好的处理,这些问题错误都是很少重现的,你的经验有时候不起作用,更多的是我们去深层次分析问题根源,才能解决你以前包括网上其他人都没有解决过的问题。

 

胡顺良是北京阳光加信软件技术有限公司的网管,这是一家韩国手机游戏开发公司的中国分公司。公司员工都是IT从业人员,有一些还是计算机高手,因此,他们留给网管员的问题就更为复杂与棘手。他向记者介绍了自己就近遇到的两个紧急问题:

 

戴尔计算机出现的奇异故障

 

一天早上,我的同事candy把她的戴尔optiplex 170L机抱过来,机器无论如何都不能进入系统。主要的现象是:开机后显示“press F1 To Retry Boot F2 fot Setup Utility,”如果按照提示按F1,还是出现刚才提示的结果,如果按F2 ,进入BIOS设置,保存后又重新启动,设置光盘启动也不能重新安装,然后出现黑屏;设置为让硬盘启动也不可以,但是在BIOS里是可以检测到硬盘的。

 

在网上搜索了半天,没有发现很好的解决办法,于是给戴尔技术支持打电话,我详细的介绍了出现的问题现象,他说没有出现过这种情况,他按照一般的处理方法让我操作,结果我都试验过了,不能进入系统或安装系统。

 

于是我静下心来,思考出现这个现象的几个可能,基本上可以确定是硬盘不能启动,那么或者是硬盘有坏道或扇区,或者是硬盘启动文件坏了,按照软件和硬件两个方面来处理,把所有的硬件检测一遍,都是正常没有问题。

 

于是可以判定问题出现在软件上,很可能是启动文件坏了。

 

为了确定内存也没有问题,又采用互换的方法把内存检测了一次。内存没有问题,然后把硬盘也用互换的方法做一次系统启动测试,结果发现硬盘在其他戴尔同型号机器上检测到,启动文件都存在,如果把几个启动文件都传过去也没有效果,于是把问题硬盘的C分区给格式化。把问题硬盘拆下来,放回原来的计算机,重新启动计算机,新的问题又来了,发现找不到启动文件了,为了更新BIOS信息,按ALT+E+F+B,系统重新刷新BIOS,设置BIOS让光盘启动,放入戴尔的恢复光盘,蓝色的屏幕终于出现了,不再是黑屏,然后一路顺利的可以安装了。

 

这次问题的根本就是硬盘无法启动,最后把问题简单化,用计算机问题常用处理办法互换方法来检测确定问题所在,解决了别人看起来难以解决的问题。

 

软件出错信息的 巧妙处理

 

在软件公司不仅要处理日常的计算机设备和网络的故障,还要处理很多软件开发环境以及开发平台等软件出错问题。

 

上周我的一个开发部同事告诉我,他的笔记本上出现了这样的错误提示:“unknown software exception 0x0000094,要终止程序,请单击‘确定’,要调试程序,请单击‘取消’。”

 

我听了他的讲述后,首先想到的是是否可以重现该问题,于是来到他的笔记本前,然后他在浏览器里点击某个文件后就出现了刚才的错误。然后我开始询问最近他安装了哪些软件,这些软件是否正常删除,什么时候开始出现这个错误的。他是一个开发人员,比其他部门的人员在技术上比较好,对问题的表述也比较清楚,他告诉我在这之前他安装了几个播放软件,其他的都删除了。计算机上安装了很多开发工具和开发平台,如果直接重新安装系统损失很大,很多软件都要重新安装,还有很多软件现在没有安装软件了,这样只好修复,不能重新安装系统。

 

按照错误提示的代号,我到网上找了半天也没有找到好的处理办法,但是肯定的一点是内存溢出,我因为对计算机原理很熟悉,对硬件很了解,所以有了基本的判断,但是怎么办呢,网上英文资料也没有,论坛上都是失败的例子或是重新安装问题依旧,是那个软件出现了内存溢出呢?现在又不能重新安装系统?

 

针对现在的情况,先去找线索,这个开发人员说安装过播放软件,还有什么可以提示的呢? 去找系统得日志、事件查看器,在事件查看器里,发现有某个dll文件出问题了,并且发现是media软件,进一步确定是播放软件删除不彻底造成的,某个dll文件还存在。那么首先要确定现在还有哪些软件还在运行,或者想办法把dll关联的软件文件找到就可以解决了。

 

同时运行的软件很多,关联的dll文件也很多在运行,怎么找呢?于是从网上找了一个专门查第三方dll的软件 shellexview,下载安装好,首先把第三方的dll文件全部禁止掉,到出现问题的地方,一个一个的试验,就这样最后确定就是那个播放软件的问题。把该软件相关的都清理掉,彻底的解决了,再也不提示上面的错误了,既没有还原系统,也没有重新安装系统,圆满地解决了问题。

采访对象三:某大学网络中心管理员 王玉湘

网管员的一天

 

作为一家大学网络中心管理员的王玉湘,刚上班便从自己的电脑中熟练地调出防火墙界面,查看防火墙日志。进行内容审计,没有出现敏感内容。

 

打开web服务器日志,进行入侵检测。王玉湘发现除了一些人无意之中留下的痕迹之外,有一个外部的地址连续的扫描。二话不说,直接在防火墙上禁止该地址对服务器的访问。

 

开始流量检测,使用MRTG软件,查看进出服务器的流量,记录流量。“嗯,起伏正常,没有问题。”王玉湘心中默念道。

 

接到教学楼A老师的报修电话,说是教室PC出现了软件上的故障。“faint,这年头,什么事情都找到我。”王玉湘埋怨道。学校网管中心有网络、计算中心两个部门,后者管终端。但是不管任何问题发生,当事人都直观地认定这是王的事情。“那您先登记一下,一个小时后计算中心会统一处理。”王玉湘快速地回答了A老师。王玉湘喜欢到网管员世界、中国计算机报社网址以及各大论坛上更新,吸收各种行业新资讯。网管员很多时候就这样守株待兔,时刻准备处理突发事件。

 

紧急状况!进行流量监控时发现流量图中整个流量变成了一条直线,整个网络带宽被占用。立马利用Sniffer软件进行流量分析,原来又是BT下载惹的祸。该不该把BT封杀呢?王玉湘开始冥思苦想,限时段下载是必要的,怎么限制?控制端口,封掉6880~6889十个端口?新的BT可变端口,这么做也无济于事啊。唉,上网看看别的解决方案吧。

 

匆匆解决掉中餐,王玉湘决定上网调查一下思科的解决方案。这个方案解决效果还是不错的,专门有解决BT和电驴等的包。出口路由器把IOS升级到新的版本之后,就可以启用功能。但是有两大问题,一是解决办法是固封的,如果使用华为的路由器就没法看;二是思科的产品成本太高。

 

王玉湘决定干脆采用Linux上网卡解决方案,因为开源软件的配置一下能跑到100兆,也很不错了。Linux的防火墙放到应用第四层,Ip列表有了内容检测后,可以打开第七层的数据包看内容。同时BT、电驴的特征也被记录下来了。该封就封,用脚本控制,用定时器来做。“嗯,就这么干了”。

 

王玉湘习惯性地查看web master 、bbs上有无投诉的东西。接着查看ftp能否正常访问,一切正常。

 

临近下班,天气突然转阴,屋外电闪雷鸣。王玉湘最担心的事情发生了,交换机烧坏了。当时为了省钱,有些距离特别近的楼之间直接用网线而没用光纤连接,打雷时,电流很容易沿着网线烧到交换机。

 

“唉,糟糕,又有得忙了......”

采访对象四:清华同主光盘网络中心 方建国

将节约进行到底

 

 

 

 

 

 

“头儿,登陆安全更新服务器查看完毕,一切正常。”

 

“头儿,已登陆网络防、杀毒服务器,病毒码已自动更新,系统已自动扫描,没有异常情况,不需手动操作。”

 

“头儿,公司各部门运转正常,进出服务器的网络流量正常”

 

听完助手的汇报,方建国嘴角露出一丝满意的微笑。于是上午九点半,他打开电脑,进入自己最爱逛的技术论坛,开始进行自己休闲时间最钟爱的活动——和朋友们分享自己的网络管理经验……

 

以前的方建国,可不是这般潇洒。几年前刚从华南理工毕业,他就进入了AFOP公司,开始了自己的网管生涯,几年的时间,使方建国具备了国内典型性网管员征候群:从早到晚忙得像陀螺,一分钟恨不得能掰成两分钟花。2002年非典时期,方建国投奔了新的东家——清华同方光盘,干起了他的老本行。当时方建国认为新的公司所处的环境比较特殊,位于清华科技园区,可以直接利用清华大学的校园网络,这给办公环境的网络维护减轻了大量的工作。但是进到公司摸清了公司的“网络脉”的时候,方建国发现公司结构庞大,一共包括三个独立实体:清华同方光盘、中国知网和中国学术期刊网。所以方建国需要维护的除了清华的中心网站,还有西三旗和北洼路两个分处的局域网,共计200多台服务器、500多台PC工作站,任务非常的繁重。

 

内网漏洞百出

 

除此之外,方建国还发现了公司内网的几大弊病:

 

首先,清华中心和西三旗、北洼路共三个局域网构成的公司内网,内部多台机器犹如一盘散砂,并且所有的工作站都通过光纤访问外网。只要一些员工随意进行工作之余的BT下载,占用大量带宽,就会导致整个网络运行相当缓慢。相反地,极度依赖网络的部门却无法正常工作,给公司带来损失;

 

其次,中心网络就一台路由器外加一个傻瓜式的交换机。原来的网络管理也没有做流量限制以及一些特殊规定(如MAC地址和IP访问管理问题),造成IP冲突。设备的落后导致公司人力成本投入太大——5个管理员,每天忙上忙下解决上述无聊问题,忙得很郁闷,方当时也是其中一员。

 

最后,公司员工上网行为没有统一的管理员控制,完全属于个人行为。金山、诺顿、江民、瑞星,个人PC上爱装什么杀毒软件装什么软件,爱装什么防火墙装什么防火墙。这给网管的管理监管工作带来了很大的难度,也给公司网络安全造成了巨大的隐患。

 

自行研究“节约”解决方案

 

巡视完新公司的网络状况,方建国不禁暗暗担忧,为自己也为公司。难道又要开始陀螺般的网管生活,难道公司还需要继续因为网络管理不善而白银外流? 不行!方为自己定下的工作信条是“最大限度地为公司节约成本,为自己赢得时间”,于是他开始自行研究解决方案。

 

在前期布署阶段,建立双网系统,公网与内网。整个网络管理主要是通过千兆网络,使用PCANYWHERE来管理的,也就是在一台机器上来管理所有的200多台Web服务器。

 

方建国深谙“治军切忌乱”的道理,首先就根据公司各部门职能的不同、地理位置分布的不同, 将整个内网划分成若干个子网,并依次决定好要添加多少个网关机,并在在网关机上利用Linux强大的功能做入侵检测。例如西三旗分支公司的网络升级为10M电信通光纤接入,内部设5个不同的子网,互联互通,但之间有ACL限制。北洼路同西三旗分支公司类似。

 

针对大家全用光纤上网的问题,方建国在设计中认真考虑了不同的子网该使用光纤还是ADSL上网,什么时段可以用光纤上网,什么时候只能用ADSL上网。如何添加路由,编写脚本废了一大番心思。怎么决定不同子网访问网络时走什么路由,参考的依据主要是两点:不同部门需要使用网络带宽多少,以及部门和中心联系频率高低。最后对整个分支公司的各子网设定了访问规则,某些极度依赖公网和与清华中心网络联系紧密的子网只通过光纤上网,但对外网依赖不强的子网则在工作时段通过ADSL上网,下班时间后解禁,可以选择两种方式中的任意一种上网。

 

方建国牢牢记得一位对其影响至深的导师曾开诚布公地说过:“不要在我面前提某某品牌几十万的路由器,它能实现的功能,我完全可以用免费的软件帮你实现。”西三旗分支公司之前一直使用着一款老版思科的路由器,方认为该路由器性能上不可能支持500台工作站工作的流量;功能上不能实现ACL、细化对内部机器的控制,比如控制不让员工访问某个网站,它做不到;管理上不便,定制性不强,比如在思科服务器上做一个静态网页来控制它,网管员个人是做不到的。

 

有朋友建议重新购买一些新版本功能更强大的服务器好了,省时又省力,一个网管员犯不着为公司省钱累坏自己。但是方还是购买了5台市场上淘汰下来的单价不足3000元的PC机,分别装上了免费的服务器版本的操作系统RedHat Linux AS4,分别做接入网关,包过滤防火墙,路由,网关等。虽然辛苦一些,但却为公司省了大量的成本。

 

一个好汉三个帮

 

在这里,不得不提的是方建国一直坚持的观点:“在IT界,没有人是万能的。面对一个难题,我可能解决不了,但是我永远不缺一大帮朋友心甘情愿地来帮我”。在遇到网络安全控制的难题后,方建国一直和自己的死党,中软的prian还有微软的黑色数据交流着处理意见。最后,在安全方面,方建国决定将“节约”精神进行到底。

 

其一、为了网管员能在任何一台可以上网的电脑上对整个内网进行管理,以此节约大量人力和时间。将服务器全连接在具有网管功能和SNMP功能的交换机上,并做了MRTG流量监控,这样子,就可以很清楚地通过IE来查看网站服务器的网络流量是否正常,以此来作为网络是否异常的一种判断依据。

 

其二、为了节省时间,根据实际经验写了查核服务器系统日志的脚本,通过运行脚本进行网站系统日志检查、安全更新检查。只要运行大约半小时,就可以查到特殊ID的日志,这样就可以有针对性的进行管理了。

 

其三、在整个网络系统中引进了WSUS(微软安全更新服务器),这样每天下班之后网管员先在服务器上下载好微软的新的安全补丁,不挤占上班时间至关重要的足够带宽。第二天工作时间,WSUS自动扫描内网,给未打上补丁的工作站打好补丁。这也减轻了员工上外网下载补丁给网络带来的负担。

 

但是由于机器较多,维护量大,可能造成疏露等现象,据此,方建国也做了脚本,来查核每台机器更新没有?更新完成否?是否成功?

 

其四、关于病毒防护体系,系统中引进了NORTON的网络防、杀毒服务器,其他服务器安装客户端,并在服务器进行,简单设置,这样可以做到,病毒码自动更新,系统自动扫描了。网管员基本上每天就是登陆上服务器看看,不需要做什么操作了。

 

网络改造取得了一定的成功,所以每天清华同方光盘的网络管理中心才出现了文章开头的那一幕。以前5个人每天从早忙到晚,现在一个人上网短时间内就能搞定。做网管热爱网管,对于方建国来说怎么更好地管理网络是一件相当有意思的事,赢得了时间,他又选择了更多的兼职开始了自己的网络管理实验之旅。

 

如何才能不加班

 

网管员,通常是一个单位中最为忙碌的人,经常找不到人,因为他随时在“扑火”。所谓的“扑火”,既有网络管理本身的故障,网络遇“黑”等突发事件,也有网络甚至计算机应用水平不高的原因。

 

今天,“网络上的日子”已经来临了。但是,随着企业本身运作的加强,其IT架构日益庞大,网络结构日趋复杂,分支机构越建越多。与此同时,企业还面临着降低成本、安全等难题,企业的IT管理正面临着极大的考验。虽然已经有越来越多的用户开始关注网络的管理,或者有的用户已经有了管理软件,但是很多网络管理者只是对网络设备、线路和用户进行了严格的管理,而对于整个网络以及网络应用却缺少管理。而最让网管员头疼不已的还有新应用的层出不穷。不断升级更新的通信平台如何去有机地运转?不断融合的网络、融合的应用能否顺畅地为企业的商务活动服务?所以,他们不要避免在要经常面对企业网络的升级、更新,随时要保证网络的顺畅运行。这也是当前网络管理领域非常热闹的一个原因,当然,这也是好事。

 

要让网管员不加班,一方面是需要好的网络管理系统。目前,不少公司都提出了新的IT资源管理理念,从集中控管到360全方位管理网络,新技术的发展必然将使网管员的忙碌有所缓解。好的管理可以使企业网络系统在不间断运行中实现风险和成本的最小化,并对于可能造成的基础硬件错误和意外停机给予额外的保护,也能最大限度地增加网络的可用时间,提高网络单元的利用率、网络性能、服务质量、安全性和经济效益,简化多制式、多厂商混合网络环境下的管理和控制网络运行成本,提供网络规划的依据。

 

另一方面,还是要提高计算机应用水平。很多时候,网管员忙的事情完全跟网络管理没有关系,是一些企业的个人使用者在电脑的设置上出现了问题,导致网管员不停地不同的工位上处理相同的问题。这其中的原因,当然有个人使用者不愿意掌握一些计算机应用技巧所致,而更多的原因还在于计算机等高科技产品并没有真正实现简单、易用。试想,都在忙于工作,网管员总是忙碌,又不好找,如果自己能解决,谁会愿意等上一个小时,等网管员来处理?

 

计算机、网络、通信系统,这些都是工具,都是为我们的生活和工作服务的。曾有公司提出,未来要让通信像开灯一样简单,这才是科技为人服务的最终目的。今天,有人提出过“我不会开灯”这样的问题吗?因为墙上的开关就在那里,顶多是天黑摸不着而己。可是,高科技领域还做不到这一点,这也正需要整个高科技行业共同的努力。什么时候,网管不加班了,甚至网管这一职位都没有了,我们关于“科技为人服务”这一理想也就实现了吧。

原文转自:http://www.ltesting.net