|
說(shuō)起以太網(wǎng)故障,根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn)大多數(shù)的網(wǎng)絡(luò)故障都是與硬件有關(guān)的:比如說(shuō)電纜,中繼器,HUB,Switch和網(wǎng)卡等。對(duì)于以太網(wǎng)典型故障的查找,一般過(guò)程如下:
一,收集一切可以收集到的有價(jià)值的信息,分析故障的現(xiàn)象。
二,將故障定位到某一特定的網(wǎng)段,或者是單一獨(dú)立功能組(模塊),也可以是某一用戶(hù)。
三,確認(rèn)到底是屬于特定的硬件故障還是軟件故障。
四,動(dòng)手修復(fù)故障。
五,驗(yàn)證故障確實(shí)被排除。
一般來(lái)說(shuō),最好的方法是先把故障細(xì)分或隔離在一個(gè)小的功能段上,即首先排除最大的簡(jiǎn)單段,從任何一個(gè)方便的,靠近問(wèn)題的站點(diǎn)出發(fā),利用二分法隔離障礙,再繼續(xù)使用二分法直至把故障劃分到最小的單位。網(wǎng)管人員不要過(guò)多的指望用戶(hù)會(huì)給出準(zhǔn)確的故障情況描述,最好由自己親自來(lái)確認(rèn)一下。當(dāng)然也可以由用戶(hù)演示所發(fā)現(xiàn)的問(wèn)題。由于網(wǎng)絡(luò)故障帶來(lái)的壓力和混亂,人們經(jīng)常忽略一些細(xì)節(jié)問(wèn)題。如果某個(gè)部件出了問(wèn)題,最好不要立即去替換它,除非能肯定故障的來(lái)源。
故障查找要注意一些事項(xiàng),由于以太網(wǎng)采用通用總線(xiàn)拓?fù)浣Y(jié)構(gòu)以及物理層可擴(kuò)展的潛在問(wèn)題,所以某個(gè)特定物理層的問(wèn)題會(huì)以不同的方式顯現(xiàn)出來(lái),由于采用的測(cè)試手段、位置和環(huán)境不同,顯示出的現(xiàn)象也常常矛盾。
為了避免被假象誤導(dǎo),特推薦兩個(gè)故障查找的步驟。
1.沿網(wǎng)段多做測(cè)試如果故障現(xiàn)象隨測(cè)試點(diǎn)的不同還保持一樣的話(huà),就可以依照所測(cè)試出來(lái)的故障現(xiàn)象去排除。如果故障現(xiàn)象在一些或所有的測(cè)試點(diǎn)都不同的話(huà),就要把查找故障的方向定在物理層(除非有特別提示),例如去查找壞的電纜、噪聲環(huán)境、接地循環(huán)等故障。
2.要提高測(cè)試質(zhì)量,在測(cè)試的同時(shí)要把測(cè)試儀器設(shè)置成至少可同時(shí)發(fā)送較低的流量。
由于增加了網(wǎng)絡(luò)流量,微小的和間歇性的物理層問(wèn)題會(huì)暴露出來(lái)。
為了更具體說(shuō)明故障分析方法,下面列舉典型的網(wǎng)絡(luò)故障加以說(shuō)明。
故障:不能訪(fǎng)問(wèn)服務(wù)器或某項(xiàng)服務(wù)
在這里設(shè)定服務(wù)器或某項(xiàng)服務(wù)以前是正常的,并且已經(jīng)做過(guò)如下的工作:
-重新冷啟動(dòng)PC機(jī)(熱啟動(dòng)不能復(fù)位全部的適配卡)。
-確認(rèn)PC機(jī)沒(méi)有本身的硬件故障。
-確認(rèn)所有的網(wǎng)絡(luò)電纜都連接正確。
-確認(rèn)所有的網(wǎng)卡驅(qū)動(dòng)軟件都正常的裝入,沒(méi)有報(bào)告錯(cuò)誤。
-確認(rèn)服務(wù)器或服務(wù)沒(méi)有改變,比如重新配置增加硬件或軟件。
要測(cè)試一下這一故障是否只影響該工作站(本地故障)還是會(huì)影響其他站點(diǎn)(大范圍故障),可以通過(guò)其他工作站裝入服務(wù)器或服務(wù)來(lái)證明這一點(diǎn)。這些工作站要在同一網(wǎng)段或HUB上。如果故障在同一網(wǎng)段或HUB上的其他的站點(diǎn)也存在,就試著從其他的網(wǎng)段或HUB上的站點(diǎn)進(jìn)行測(cè)試。
(1)本地故障
在進(jìn)行硬件故障查找以前,要確認(rèn)其他用戶(hù)也不能到這臺(tái)機(jī)器上,這就排除了用戶(hù)帳號(hào)的錯(cuò)誤。對(duì)一個(gè)單一的站點(diǎn)來(lái)說(shuō),典型的故障多發(fā)生在壞的電纜、壞的網(wǎng)卡、驅(qū)動(dòng)軟件、或是工作站設(shè)置的不正確等問(wèn)題上。
。2)全局問(wèn)題
通常來(lái)說(shuō),在同軸網(wǎng)中的物理層故障會(huì)導(dǎo)致災(zāi)難性的網(wǎng)絡(luò)故障。使用二分法來(lái)查找這類(lèi)故障是可以很快定位解決的。間歇性故障是比較難以隔離的。
(3)電纜連接問(wèn)題
目測(cè)連接性:檢查連接性常用的方法就是檢查HUB、收發(fā)器以及近期出產(chǎn)的網(wǎng)卡上的狀態(tài)燈。如果是10BASE5的電纜,要仔細(xì)檢查所有的AUI電纜是否牢固的連接劃鎖要同時(shí)鎖牢,很多問(wèn)題只要簡(jiǎn)單的把未接牢的部分重新緊一下就解決了。
受損的電纜或連接部件:在檢查物理層的問(wèn)題時(shí),要注意受損的電纜、不正確的電纜類(lèi)型(比如在以太網(wǎng)上用RG62或RG59)、未打好的RJ-45水晶頭或未按牢的BNC頭。對(duì)懷疑有問(wèn)題的電纜可以用一般的電纜測(cè)試儀進(jìn)行測(cè)試。
。4)連接脈沖極性問(wèn)題
無(wú)論是NIC還是HUB的連接脈沖極性都可以通過(guò)測(cè)試測(cè)出,連接極性故障通常是由電纜的連接錯(cuò)誤引起的。
。5)檢查鏈路層的問(wèn)題
碰撞問(wèn)題:如果平均碰撞率大于10%或是觀(guān)察到非常高的碰撞,就需要進(jìn)一步的測(cè)試了。如果可能,試著通過(guò)減少網(wǎng)段規(guī)模(將網(wǎng)絡(luò)分成小塊)并隨時(shí)檢測(cè)碰撞的變化以隔離出發(fā)生問(wèn)題的區(qū)域。為了追蹤碰撞情況,就必須知道網(wǎng)絡(luò)的流量?梢允褂帽尘傲髁堪l(fā)生器來(lái)加入適當(dāng)?shù)牧髁浚?00幀/秒,100字節(jié)長(zhǎng)的流量),并同時(shí)觀(guān)察網(wǎng)絡(luò)的統(tǒng)計(jì)顯示。某些與介質(zhì)有關(guān)的故障是與流量的大小成正比的?梢栽谟每刂奇I改變流量同時(shí)觀(guān)察碰撞與錯(cuò)誤的改變。這種做法要特別小心,因?yàn)槟愫苋菀捉o網(wǎng)絡(luò)加入很重的流量。解決與碰撞有關(guān)的問(wèn)題常常是很費(fèi)勁的,因?yàn)闇y(cè)試的情況在很大程度上取決于觀(guān)察的位置。也許在同一網(wǎng)段相距幾尺遠(yuǎn)的不同觀(guān)察點(diǎn)看到的情況就不同,要多找?guī)讉(gè)點(diǎn)來(lái)觀(guān)察并留意所發(fā)生的變化。
如果碰撞和流量成正比,或碰撞幾乎是100%,或幾乎沒(méi)有正常的流量,則可能是布線(xiàn)系統(tǒng)出了問(wèn)題。對(duì)于UTP布線(xiàn),可以在HUB上斷開(kāi)電纜然后進(jìn)行電纜測(cè)試。對(duì)于同軸電纜就要進(jìn)行阻抗測(cè)量,可以使用數(shù)字表或其他儀表的直流通斷功能進(jìn)行測(cè)試。如果電纜兩端都有端接器,從T型接頭應(yīng)測(cè)的大約25歐姆,如果從電纜的一端將會(huì)測(cè)的50歐姆。
幀級(jí)錯(cuò)誤:如果出現(xiàn)幀級(jí)錯(cuò)誤,你就要運(yùn)行錯(cuò)誤統(tǒng)計(jì)測(cè)試,并通過(guò)詳細(xì)功能把有問(wèn)題的工作站的MAC地址找出,然后經(jīng)過(guò)測(cè)試把故障確定下來(lái)。可以試著將驅(qū)動(dòng)程序用“干凈”的原盤(pán)重新裝入工作站,要確認(rèn)各項(xiàng)配置安全。如果這一切仍不奏效,可以試著把有疑問(wèn)的網(wǎng)卡換掉。
利用率過(guò)高:如果利用率過(guò)高(平均值大于40%,瞬間峰值高于60%),那么網(wǎng)段負(fù)荷就過(guò)重了。應(yīng)當(dāng)考慮安裝網(wǎng)橋和路由器以減少在網(wǎng)段中的流量或把網(wǎng)段分成若干小的網(wǎng)段。
。6)客戶(hù)服務(wù)器連接的完整性問(wèn)題
如果在鏈路層上是完好的,那么我們就要來(lái)看一下協(xié)議方面是否有什么問(wèn)題會(huì)影響服務(wù)器和客戶(hù)之間的通信。
連通性:使用專(zhuān)業(yè)儀表,你可以運(yùn)行Server List或Novell Ping測(cè)試功能,用來(lái)驗(yàn)證從測(cè)試點(diǎn)是否可以訪(fǎng)問(wèn)服務(wù)器或服務(wù)功能。如果服務(wù)器沒(méi)有反應(yīng),重新冷啟動(dòng)服務(wù)器并注意觀(guān)察所有驅(qū)動(dòng)軟件是否正確加載,有無(wú)錯(cuò)誤提示。Novell的3.11版本以及以前版本,在缺省配置下使用802.3RAW的打包,而2.12及以后的版本在缺省配置時(shí)都使用了802.2打包類(lèi)型。
另外也可試著對(duì)服務(wù)器進(jìn)行幾次ping測(cè)試,要確認(rèn)請(qǐng)求信號(hào)與返回的響應(yīng)信號(hào)數(shù)目相等,結(jié)果不一致則表明有時(shí)好時(shí)壞的網(wǎng)卡或HUB的故障導(dǎo)致幀的丟失。臨界狀態(tài)的和已壞的橋或路由器也可以用此方法很快的定位。
服務(wù)器或服務(wù)的可達(dá)性:如果使用協(xié)議分析儀,就要捕獲3至4分鐘的數(shù)據(jù)包來(lái)分析?匆幌率欠裼袕姆⻊(wù)器發(fā)出的延時(shí)請(qǐng)求,并找出是哪個(gè)服務(wù)器發(fā)出的,如果有延時(shí)請(qǐng)求,則表明服務(wù)器不能完全處理所加載的任務(wù),每一個(gè)延時(shí)請(qǐng)求作廢一個(gè)任務(wù)請(qǐng)求。
網(wǎng)絡(luò)響應(yīng)慢或性能差
網(wǎng)絡(luò)響應(yīng)慢或性能差,要確定一下是否是與網(wǎng)絡(luò)介質(zhì)有關(guān)的故障,是一個(gè)工作站的問(wèn)題還是一個(gè)服務(wù)器或是服務(wù)的問(wèn)題。從其他工作站去訪(fǎng)問(wèn)同樣的服務(wù)器或服務(wù),并詢(xún)問(wèn)本段網(wǎng)絡(luò)或其他網(wǎng)段上的用戶(hù),如果問(wèn)題不是與介質(zhì)有關(guān)的,要確定問(wèn)題是否與軟件有關(guān),檢查網(wǎng)絡(luò)利用率和軟件錯(cuò)誤來(lái)查找性能差的網(wǎng)絡(luò)問(wèn)題。
運(yùn)行諸如網(wǎng)絡(luò)統(tǒng)計(jì)這樣的測(cè)試,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再運(yùn)行一下這些測(cè)試。如果發(fā)現(xiàn)碰撞和PCF伴隨的流量的增加而增多的話(huà),你就應(yīng)運(yùn)行電纜測(cè)試來(lái)檢查工作站的連接。
。1)碰撞問(wèn)題
如果碰撞較多,要算一下多少帶寬被碰撞損失了。把本地和遠(yuǎn)端碰撞的損失都加起來(lái),如果平均碰撞的值大于5%-10%,就要進(jìn)行進(jìn)一步的故障查找。同樣要檢查一下碰撞是否是突發(fā)的,也就是說(shuō)碰撞明顯的增多不是因?yàn)榱髁棵黠@增大引起的,如果是這樣,就意味著某處的物理層出現(xiàn)了比較嚴(yán)重的問(wèn)題。在碰撞與流量之間應(yīng)是有一定關(guān)系的。這種關(guān)系應(yīng)當(dāng)在做網(wǎng)絡(luò)參照基準(zhǔn)測(cè)試時(shí)收集。如果碰撞始終是比較多的(但仍是可以接受),可能是太多站點(diǎn)同時(shí)在參與發(fā)送,或者網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)做一些優(yōu)化使近距離的站點(diǎn)分在一起。過(guò)多的碰撞最常見(jiàn)是與介質(zhì)有關(guān)的故障導(dǎo)致的,比如:不正確的端接、特性阻抗不連續(xù)(壞接點(diǎn)、殘留支纜、殘破線(xiàn)纜等)和壞網(wǎng)卡。
(2)過(guò)載的網(wǎng)段
如果利用率很高(持續(xù)峰值超過(guò)60%)而碰撞又可以接受(平均碰撞小于10%),那么網(wǎng)絡(luò)就飽和了。這時(shí)就應(yīng)該增加網(wǎng)段或用路由器把網(wǎng)段分成較小的可以支持正常流量的網(wǎng)段。
(3)硬件故障
如故出現(xiàn)幀錯(cuò)誤,利用專(zhuān)業(yè)儀表可以找出錯(cuò)誤幀的來(lái)源。此后的工作就是在HUB口、網(wǎng)卡和電纜中隔離出特定的故障,如果故障是間歇性的,就替換掉有疑問(wèn)的網(wǎng)卡。檢查一下服務(wù)器/服務(wù)是否接在廣域網(wǎng)路由器的兩端。如果是這樣,就用Ping測(cè)試來(lái)測(cè)試一下響應(yīng)時(shí)間并與基準(zhǔn)測(cè)試比較一下。為了保證沒(méi)丟失幀的情況就要連續(xù)運(yùn)行多次的Ping測(cè)試,檢查測(cè)試請(qǐng)求包與響應(yīng)包是否相等。如果不相等,遠(yuǎn)端的介質(zhì)或互連設(shè)備(網(wǎng)橋、路由器等)就有可能是容量問(wèn)題或有故障。丟幀也是電纜故障之一。比如:UTP布線(xiàn)中的線(xiàn)對(duì)串繞和同軸纜的故障。如果懷疑有丟幀就進(jìn)行電纜測(cè)試。測(cè)試接在反應(yīng)慢的工作站的電纜,也要測(cè)一下服務(wù)器方向的電纜。
(4)軟件故障
運(yùn)行網(wǎng)絡(luò)統(tǒng)計(jì)測(cè)試,如果是高流量,低碰撞,而且有一點(diǎn)錯(cuò)誤幀,就先確定發(fā)送錯(cuò)誤幀的站點(diǎn)。也可以由繁忙站點(diǎn)測(cè)試來(lái)找出有問(wèn)題的站點(diǎn)。到該站點(diǎn)現(xiàn)場(chǎng)來(lái)查看該用戶(hù)在做什么。要問(wèn)明在非高峰時(shí)間用戶(hù)在干什么或把這個(gè)用戶(hù)移到其他網(wǎng)段上,以改善本網(wǎng)段上的其他用戶(hù)工作情況。如果利用率、碰撞、錯(cuò)誤幀都低,要詢(xún)問(wèn)抱怨網(wǎng)絡(luò)性能不好的用戶(hù)是使用哪個(gè)服務(wù)器和哪個(gè)應(yīng)用軟件。檢查該服務(wù)器是否處在高負(fù)載狀況下,它和網(wǎng)絡(luò)的利用率是不同的概念。要找出使用這個(gè)服務(wù)器資源最多的用戶(hù),這可以用服務(wù)器上的用戶(hù)監(jiān)測(cè)功能或協(xié)議分析儀來(lái)完成。
無(wú)論是網(wǎng)絡(luò)流量高或低時(shí)發(fā)生的問(wèn)題,如果是碰撞很少而且沒(méi)有錯(cuò)誤幀,這類(lèi)問(wèn)題多出自應(yīng)用軟件或與文件服務(wù)器有關(guān)。服務(wù)器可能是Cache設(shè)置的太小,保留的緩沖不足,服務(wù)器內(nèi)存不夠,服務(wù)器所余空間有限,這也可能是另一類(lèi)軟件問(wèn)題,它們可能造成不正常的“網(wǎng)絡(luò)磁盤(pán)請(qǐng)求”,這時(shí)有必要將某一應(yīng)用移到另一個(gè)服務(wù)器上,要么升級(jí)現(xiàn)有的服務(wù)器,要么再加入一個(gè)新的服務(wù)器。
|
|