層次聚類方法是通過將數據組織為若幹組並形成一個組的樹來進行聚類的。層次聚類方法又可以分為自頂而下和自下而上層次聚類兩種。一個完全層次聚類的質量由於無法對已經做的合並或分解進行調整而受到影響。目前的研究都強調將自下而上層次聚類與循環再定位方法相結合。
9.5.1兩種基本層次聚類方法
一般有兩種基本層次聚類方法。它們分別是:
(1)自下而上聚合層次聚類方法。這種自下而上策略就是最初將每個對象作為一個聚類,然後將這些原子聚類進行聚合以構造越來越大的聚類,直到所有對象均聚合為一個聚類,或滿足一定終止條件為止。大多數層次聚類方法都屬於這類方法,但它們在聚類內部對象間距離定義描述方麵有所不同。
(2)自頂而下分解層次聚類方法。這種自頂而下策略的作法與自下而上策略做法相反。它首先將所有對象看成一個聚類的內容,將其不斷分解以使其變成越來越小同時個數越來越多的小聚類,直到所有對象均獨自構成一個聚類,或滿足一定終止條件為止,如:一個聚類數閾值,或兩個最近聚類的最短距離閾值。
示例9.3:分別是一個自下而上聚合層次聚類方法AGNES和一個自頂而下分解層次聚類方法DIANA的應用示例。其中數據集為{a,b,c,d,e},共有5個對象。開始AGNES方法將每個對象構成一個單獨聚類,然後根據一定標準不斷進行聚合。如:對於聚類C1和C2來講,若C1中對象與C2中對象間歐氏距離為不同聚類中任兩個對象間的最小距離,則聚類C1和C2就可以進行聚合。兩個聚類之間相似程度是利用相應兩個聚類中每個對象間的最小距離來加以描述的。AGNES方法不斷進行聚合操作,直到所有聚類最終聚合為一個聚類為止。
而在DIANA方法中,首先所有的對象在一起構成了一個聚類,然後根據一定原則,如:聚類中最近對象間的最大歐氏距離,對其進行不斷分解,直到每個聚類均隻包含一個對象為止。