廣義地說,在時間和空間中存在的可觀察的事物,若可區別它們之間是否相同或者相似的信息,皆可稱之為模式。模式所指的并非事物本身,而是從事物中獲取的信息。因而,模式通常反映為具有時間或空間分布的信息。而識別出特定客體所模仿的標本就是模式識別。狹義地說,模式是通過觀測具體的個別事物而獲取的具有時間和空間分布的信息。擁有某些共同特性的模式的集合稱為模式類。模式識別就是對一些自動技術進行研究,借助這些技術,計算機可以自動地(或者靠人進行少量干涉)將待識別的模式劃分到其所屬的模式類中。
由前述可知,可通過定量描述和結構性描述兩種方法來描述模式。定量描述的方法是通過一組數據來描述模式。結構性描述的方法是用一組基元描述模式。相對于兩種模式的描述方法,有統計模式識別方法和結構(句法)模式識別兩種模式識別的方法。在統計模式識別方法中,用特征參數把每個樣本表示成多維空間中的一個點,按照“物以類聚”的道理,同類或相似的“樣本”之間的距離應比較近,不同類“樣本”之間的距離應較遠。據此,我們就可以依據各個點之間的距離或距離的函數進行判別、分類,并根據分類結果來預測未知;結構模式識別是用符號串(樹)來描述模式,它以模式的結構信息為分析對象的識別技術。
模式識別系統的組成主要包括由五個部分:即信息獲取、預處理、特征抽取、分類器設計和分類器,具體如圖所示。
為使計算機對客體能分類識別,需要用計算機能接受的形式表示客體,通過測量、采樣和量化,能夠用矩陣或向量表示一維波形或二維圖象,這就是信息獲取過程。
②預處理
預處理的目的是去除噪聲,增強有用信息,并對各種因素導致的退化現象進行復原。常用多維空間的點來表示樣本的特征參量,用矢量表示為:
x=(x1,x2,...xn)}
③特征抽取
從信息獲取部分得到的原始數據量往往非常大。為能有效實現分類識別,需要通過對原始數據進行選擇或變換,獲取最能代表分類本質的特征,形成特征向量,這個過程就是特征抽取。特征提取的過程在實際應用中通常包括:先測試一組直觀上合理的特征,然后將其減少至數目合適的最佳集。一般情況下,不太容易建立起符合上述要求的理想特征。
④分類器設計
為把待識別模式歸并到各自的模式類中去,需要設計一組分類判別規則。
其基本作法為:應用一定量的樣本作為訓練樣本集,確定出一組分類判別規則,使得根據這組分類判別規則對待識別模式進行分類而造成的錯誤識別率最小或引起的損失最小。
⑤分類器
分類器根據已經確定的分類判別規則來分類識別待識別模式,輸出分類結果。