Rough集理論是由Pawlak在80年代初首先引入計算機(jī)科學(xué)領(lǐng)域的,它作為一種基于數(shù)學(xué)概念方法,已廣泛用于數(shù)據(jù)挖掘的各個領(lǐng)域。隱含在Rough集模型中最原始的觀點為:有關(guān)決策的信息通常是模糊的,這種模糊性來自于信息源的不確定性和不精確性,模糊性可能是由于信息的表示粒度而導(dǎo)致[3].在Rough集模型中,知識表示是通過信息系統(tǒng)來完成的。如果信息系統(tǒng)中的信息粒度較大,即屬性的等價類數(shù)量較多,且每個等價類中只包含很少的對象,則這樣的信息系統(tǒng)所產(chǎn)生的規(guī)則雖然在訓(xùn)練集上具有較好的分類能力,但不能保證其在測試集或?qū)π聦ο蠹嫌休^好的分類預(yù)測能力。因此,有必要對原始的信息系統(tǒng)進(jìn)行數(shù)據(jù)過濾,以降低信息粒度。提出了一個簡單的數(shù)據(jù)過濾方法,能夠提高規(guī)則的統(tǒng)計意義,而保持信息系統(tǒng)內(nèi)在依賴信息不受損失。其基本的工具是利用二元信息系統(tǒng)首先將原始的信息系統(tǒng)轉(zhuǎn)化為二元信息系統(tǒng),然后在二元信息系統(tǒng)的基礎(chǔ)上利用一定的方法對屬性進(jìn)行合并,以完成數(shù)據(jù)的過濾,減低信息的粒度,提高規(guī)則統(tǒng)計意義而保持規(guī)則的近似質(zhì)量[5])不變。由于在信息系統(tǒng)二元化過程中需要將每個非二元屬性q拆成Vq個屬性,因此當(dāng)信息系統(tǒng)屬性較多,且屬性的值域較大時,將產(chǎn)生龐大的二元信息系統(tǒng),導(dǎo)致計算復(fù)雜性提高。為此我們提出一種基于Rough集的數(shù)據(jù)過濾算法,該方法直觀,計算復(fù)雜性也不高,能達(dá)到文獻(xiàn)[4]同樣的效果。本文的組織如下:在第2節(jié)中,我們簡要提出了一些Rough集理論的有關(guān)概念;我們提出的基于Rough集理論的數(shù)據(jù)過濾算法,并從理論上證明了該算法不僅能保證規(guī)則的近似質(zhì)量不變,而且能有效地提高規(guī)則的統(tǒng)計意義;2Rough集概念Rough集理論已經(jīng)在數(shù)據(jù)挖掘各個領(lǐng)域中取得了廣泛的應(yīng)用。在敘述我們的過濾算法之前,先簡要回顧一下Rough集理論的有關(guān)概念。
在Rough集理論中,核被認(rèn)為是知識表示的基本屬性集,當(dāng)信息系統(tǒng)的核為空時,說明該信息系統(tǒng)中的屬性具有較高的替代率。其原因可能是由于原始數(shù)據(jù)不完備的預(yù)處理所導(dǎo)致的高粒度的信息系統(tǒng)所致,因此,有必要降低信息粒度。一個具有正確的高近似質(zhì)量的規(guī)則并不能保證其是有效的。例如,如果我們用Rough集的方法在基于少量的對象的信息系統(tǒng)中,發(fā)現(xiàn)出規(guī)則Q→P,盡管其近似質(zhì)量可能很高,甚至為1.0,但是,由于支持其成立的對象少,這種近似質(zhì)量可能是由于偶然因素引起的,導(dǎo)致其在分類新對象的預(yù)測能力較低。因此,規(guī)則預(yù)測的有效性必須用統(tǒng)計意義進(jìn)行測試。
當(dāng)信息系統(tǒng)中的信息粒度較高時,規(guī)則的統(tǒng)計意義的值往往是很高的。為此,我們提出一種基于Rough集理論的數(shù)據(jù)過濾算法。它的基本思想是通過D確定的Q等價類的合并,提高規(guī)則的統(tǒng)計意義,從而降數(shù)據(jù)過濾方法的分析為了說明上述基于Rough集理論的數(shù)據(jù)過濾方法的有效性,我們從下面兩方面來分析,首先證明該算法能保證規(guī)則的近似質(zhì)量,然后證明進(jìn)行數(shù)據(jù)過濾后的信息系統(tǒng)的規(guī)則統(tǒng)計意義不大于過濾以前的信息系統(tǒng)的規(guī)則統(tǒng)計意義。
結(jié)束語我們在研究Rough集理論的基礎(chǔ)上,提出了一種基于Rough集理論的數(shù)據(jù)過濾算法。該算法的基本思想是基于P確定的等價類的合并,算法直觀,計算簡便。理論和實驗表明,該算法能夠減低信息系統(tǒng)中信息的粒度,在保持規(guī)則近似質(zhì)量不變的前提下,有效提高規(guī)則的統(tǒng)計意義,從而提高了規(guī)則的預(yù)測強(qiáng)度。