特征選擇和提取的基本任務是如何從許多特征中找出那些最有效的特征。研究如何把高維特征空間壓縮到低維特征空間以便有效設計分類器就成為一個重要的課題。任何識別過程的第一步,不論是用計算機還是由人去識別,都要首先分析各種特征的有效性并選出最有代表性的特征。
一般特征選擇從兩個方面著手,一方面是對單個特征進行評價和選擇,另一方面就是從大量的原有特征出發,通過降維映射的方法,構造成少數的新特征。己經證明,如果我們依次挑選出前M個最有效的單個特征,那么這M個特征放在一起卻不一定是系統模式識別的M個特征的最佳組合。
為了考察某些特征對于系統模式識別的重要性,可以從系統識別特征中去掉一些特征,再來考察沒有了該特征,分類會怎樣變化。如果去掉某些基本特征不影響我們的分類和模式識別,則這些基本特征就是冗余知識,可以去掉它;如果去掉某些基本特征將嚴重影響我們的分類和模式識別,則這些基本特征就是模式識別的有用特征,僅由這些有用特征表達的模式就是一種簡化的知識表達。特征形成:根據被識別對象產生出一組基本特征,它可以是計算出來的(當被識別對象是波形或數字圖像時),也可以是用儀表或傳感器測量出來的(當識別對象是實物或某種過程時),由此產生出來的特征叫做原始特征。
特征抽取的目的是獲取一組“少而精”的分類特征,即獲取特征數目少且分類錯誤概率小的特征向量。
特征抽取常常分幾步進行:
第一步:特征形成根據被識別的對象產生一組原始特征。可以是傳感器的直接測量值,也可以是將傳感器的測量值作某些計算后得到的值。
第二步:特征選擇由特征形成過程得到的原始特征可能很多,如果把所有的原始特征都作為分類特征送往分類器,不僅使得分類器復雜,分類計算判別量大,而且分類器錯誤概率也不一定小。因此需要減少特征數目。減少特征數目的方法有兩種,一種是特征選擇,另一種是特征提取。從一組特征中挑選一些最有效的特征的過程叫特征選擇。
第三步:特征提取特征提取是另一種減少特征數目的方法。通過映射(或變換)的方法把高維的特征向量變換為低維的特征向量。特征形成得到原始特征后,可以只作特征選擇,也可以只作特征提取,當然也可以先進行特征選擇再作特征提取,可視具體情況而定。
特征提取和選擇并不是截然分開的。如可以先將原始特征空間映射到維數較低的空間,由這個空間中再進行選擇以進一步降低維數。也可以先經過選擇去掉那些明顯沒有分類信息的特征,再進行映射以降低維數。
特征選擇與提取的任務是求出一組對分類最有效的特征,因此需要一個定量的準則(或稱判據)來衡量特征對分類的有效性。具體地說,把一個高維空間變換為低維空間的映射是很多的,哪種映射對分類最有利,需要一個比較標準。從D個原始特征中選擇出d個特征和各種可能組合也是很多的,哪種組合的分類效果最好,也要有一個比較標準。目前己有的判別標準有類別可分性準則、基于嫡函數的可分性準則、基于概率分布的可分性準則等。前兩種準則是直接從各類樣本間的距離算出的,沒有考慮各類的概率分布,不能確切表明各類交疊的情況,因此與錯誤概率沒有直接聯系。常用的概率距離度量有:Bhattacharyya距離和散度。