標(biāo)題: 樸素貝葉斯 [打印本頁(yè)]

作者: jialinx    時(shí)間: 2015-9-15 14:57
標(biāo)題: 樸素貝葉斯

優(yōu)點(diǎn):在數(shù)據(jù)少的情況下仍然有效,可以處理多類別問(wèn)題。
缺點(diǎn):對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。
適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。
使用條件概率來(lái)分類
貝葉斯決策理論計(jì)算兩個(gè)概率p1(x,y)和p2(x,y):
·如果p1(x,y) > p2(x,y),那么屬于類別1;
·如果p2(x,y) > p1(x,y),那么屬于類別2。具體的,應(yīng)用貝葉斯準(zhǔn)則得到:p(ci|x,y)=p(x,y|ci)P(ci)/p(x,y)
  由統(tǒng)計(jì)學(xué)得知,如果每個(gè)特征需要N個(gè)樣本,那么對(duì)于10個(gè)特征將需要N10個(gè)樣本,對(duì)于包含1000個(gè)特征的詞匯表將需要N1000個(gè)樣本。可以看到,所需要的樣本數(shù)會(huì)隨著特征數(shù)目增大而迅速增長(zhǎng)。如果特征之間相互獨(dú)立那么樣本數(shù)就可以減少到Nx1000。
樸素貝葉斯分類器的兩個(gè)假設(shè):特征之間相互獨(dú)立;每個(gè)特征同等重要。(有瑕疵,需改進(jìn))

貝葉斯分類模型:

貝葉斯分類器:

注意點(diǎn):各特征量值很有可能接近于0,用1+p(w|c)來(lái)解決。







歡迎光臨 (http://www.torrancerestoration.com/bbs/) Powered by Discuz! X3.1