在《網絡測量與分析》這門課上,我們組的作業是將互聯網可視化,使用的數據集是Macroscopic Internet Technology Data Kit (ITDK)提供的,可視化的對象是互聯網上自治域(Autonomous System)的鏈路關係。
自治域
在互聯網中,自治域是指在一個(有時是多個)實體管轄下的所有IP網絡和路由器的全體,它們對互聯網執行共同的路由策略。
最初時,該定義要求一個自治系統由一個單一實體管轄,通常是一個互聯網服務提供商或一個擁有到多個網絡的獨立連接的大型組織,其遵循一個單一且明確的路由策略。參看RFC 1771,邊界網關協議(BGP)的初始定義(現已廢止)。由於多個組織可使用各自私有的自治系統編號來與同一個將它們連接到互聯網的ISP之間運行BGP協議,因此得到較多應用的是RFC 1930中較新的定義。儘管ISP支持了這多個自治系統,但對互聯網來說只能看到該ISP的路由策略。所以ISP必須具有一個公開且正式登記的自治系統編號(ASN)。
根據維基百科的數據,到2012年底,互聯網有超過42000個自治域。
工具鏈
我們的實驗數據來自http://www.caida.org/data/internet-topology-data-kit/.
我們首先使用python腳本把每天的數據轉換爲GEXF
格式,同時,我們使用來自ITDK的AS節點的地理位置數據標記這些節點的位置。
我們使用Gephi
來做可視化,生成png
圖像。由於Gephi是一個Java工具,所以我們使用Java來操作Gephi。
所有用到的源代碼在這裏:
https://github.com/dangfan/itdk-visualize
單日數據
其中一日的數據如下圖所示:
使用基本的圖算法可以得到如下結論:
- AS中,節點的出度要比入度多。
- 入度多的節點出度也多,反之亦然。
本例中,節點的最大出度爲2300,而入度則不超過200。
全年數據
通過分析全年數據,我們得到如下結論:
- AS主要分佈在北美、歐洲和東亞。
- 度數高的節點並不多。
- 全年的鏈路是比較穩定的。