案例背景
某大學校園網內部的數據中心最近一段時間通過流量監(jiān)控設備發(fā)現流量比以前高很多,校內及校外均有人反映訪問數據中心服務器的速度比較慢。根據用戶介紹前段時間在數據中心與校園網核心交換機之間部署了一臺流量分流設備,用于IDS及其他安全設備采集網絡數據。用戶懷疑是該設備問題導致的異常,但并沒有有力的證據。
根據故障現象我們在用戶網絡中部署了科來回溯分析系統(tǒng),分別鏡像流量異常的兩端(校園網核心交換、數據中心匯聚交換機)的流量進行數據包級分析。
案例分析
1. 校園網核心交換采集數據分析
在校園網核心交換處通過科來回溯分析系統(tǒng)采集的數據包,我們通過TCP會話視圖可以看到從數據中心發(fā)過來的數據包的TCP序列號兩兩重復,而且間隔時間非常短,從核心交換發(fā)往數據中心的數據包則沒有出現這種情況。這一現象可以排除TCP重傳的可能性,因為超時重傳需要等待兩倍RTT延時,發(fā)送方不可能如此短的時間間隔重傳數據包。
通過數據包IP Identification字段的比對,我們可以看到數據中心發(fā)到核心交換的數據包的IP Identification字段的值會重復兩次,如下圖所示。
IP Identification字段是鑒別IP報文是否重復的重要指標,發(fā)送方短時間不會構造兩個IP Identification字段相同的報文,因此我們可以斷定這些報文是在到達校園網核心交換這段鏈路上被中間設備額外復制了一份。
初步懷疑有以下幾種可能:
- 數據中心內部網絡設備問題;
- 位于數據中心與核心交換中間的流量分流設備在復制流量時發(fā)生異常;
- 校園網核心交換鏡像功能異常;
由于數據中心原本流量就比較高,數據包被重復發(fā)送導致了鏈路流量過高出現了擁塞。要準確定位原因需要在數據中心匯聚交換機采集出口鏈路的流量才能夠進一步判斷問題點。
2. 數據中心出口采集數據分析
在數據中心出口采集到的數據包,其現象與核心交換處的現象正好相反:從核心發(fā)過來的數據包會重復兩次,發(fā)往核心的數據包沒有重復。
由于在數據中心并未看到數據中心發(fā)出的報文有重復現象,而在核心交換也未看到核心發(fā)往數據中心的報文重復,我們可以排除數據中心內部網絡設備和核心交換機鏡像異常的可能性。
案例分析結論
通過數據比對,我們可以看到單一的數據包在經過流量分流設備到達另外一端后就會出現重復一次的現象,可以判斷很可能是流量分流設備導致的問題。
用戶將這一信息告知流量分流設備廠商后,廠商技術人員經過仔細核查確認配置存在錯誤,進行了調整后網絡回復正常。