找回密碼
 立即注冊(cè)

QQ登錄

只需一步,快速開始

搜索
查看: 2710|回復(fù): 0
打印 上一主題 下一主題
收起左側(cè)

關(guān)于隨機(jī)森林算法的簡單看法

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
樓主
ID:641321 發(fā)表于 2019-11-13 17:32 | 只看該作者 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
隨機(jī)森林算法,個(gè)人的簡單看法,相互討論

隨機(jī)森林(Random Forest)是屬于集成學(xué)習(xí)的一種組合分類算法(確切說是屬于bagging),集成學(xué)習(xí)的核心思想就是將若干個(gè)弱(基)分類器組合起來,得到一個(gè)分類性能顯著優(yōu)越的強(qiáng)分類器。如果各弱分類器之前沒有強(qiáng)依賴關(guān)系、可并行生成,就可以使用隨機(jī)森林算法。
  隨機(jī)森林利用自主抽樣法(bootstrap)從原數(shù)據(jù)集中有放回地抽取多個(gè)樣本,對(duì)抽取的樣本先用弱分類器—決策樹進(jìn)行訓(xùn)練,然后把這些決策樹組合在一起,通過投票得出最終的分類或預(yù)測結(jié)果。
隨機(jī)森林的生成方法
從樣本集中通過重采樣的方式產(chǎn)生n個(gè)樣本。
建設(shè)樣本特征數(shù)目為a,對(duì)n個(gè)樣本選擇a中的k個(gè)特征,用建立決策樹的方式獲得最佳分割點(diǎn)。
重復(fù)m次,產(chǎn)生m棵決策樹。
多數(shù)投票機(jī)制進(jìn)行預(yù)測。
隨機(jī)森林中的隨機(jī)是什么意思?
     隨機(jī)森林中的隨機(jī)性主要體現(xiàn)在兩個(gè)方面:

隨機(jī)采樣:隨機(jī)森林在計(jì)算每棵樹時(shí),從全部訓(xùn)練樣本(樣本數(shù)為n)中選取一個(gè)可能有重復(fù)的、大小同樣為n的數(shù)據(jù)集進(jìn)行訓(xùn)練(即booststrap采樣)。
特征選取的隨機(jī)性:在每個(gè)節(jié)點(diǎn)隨機(jī)選取所有特征的一個(gè)子集,用來計(jì)算最佳分割方式。
隨機(jī)森林的優(yōu)點(diǎn):
表現(xiàn)性能好,與其他算法相比有著很大優(yōu)勢(shì)。
隨機(jī)森林能處理很高維度的數(shù)據(jù)(也就是很多特征的數(shù)據(jù)),并且不用做特征選擇。
在訓(xùn)練完之后,隨機(jī)森林能給出哪些特征比較重要。
訓(xùn)練速度快,容易做成并行化方法(訓(xùn)練時(shí),樹與樹之間是相互獨(dú)立的)。
在訓(xùn)練過程中,能夠檢測到feature之間的影響。
對(duì)于不平衡數(shù)據(jù)集來說,隨機(jī)森林可以平衡誤差。當(dāng)存在分類不平衡的情況時(shí),隨機(jī)森林能提供平衡數(shù)據(jù)集誤差的有效方法。
如果有很大一部分的特征遺失,用RF算法仍然可以維持準(zhǔn)確度。
隨機(jī)森林算法有很強(qiáng)的抗干擾能力(具體體現(xiàn)在6,7點(diǎn))。所以當(dāng)數(shù)據(jù)存在大量的數(shù)據(jù)缺失,用RF也是不錯(cuò)的。
隨機(jī)森林抗過擬合能力比較強(qiáng)(雖然理論上說隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象,但是在現(xiàn)實(shí)中噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但沒有辦法完全消除過擬合,無論怎么增加樹都不行,再說樹的數(shù)目也不可能無限增加的。)
隨機(jī)森林能夠解決分類與回歸兩種類型的問題,并在這兩方面都有相當(dāng)好的估計(jì)表現(xiàn)。(雖然RF能做回歸問題,但通常都用RF來解決分類問題)。
在創(chuàng)建隨機(jī)森林時(shí)候,對(duì)generlization error(泛化誤差)使用的是無偏估計(jì)模型,泛化能力強(qiáng)。
隨機(jī)森林的缺點(diǎn):
隨機(jī)森林在解決回歸問題時(shí),并沒有像它在分類中表現(xiàn)的那么好,這是因?yàn)樗⒉荒芙o出一個(gè)連續(xù)的輸出。當(dāng)進(jìn)行回歸時(shí),隨機(jī)森林不能夠做出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這可能導(dǎo)致在某些特定噪聲的數(shù)據(jù)進(jìn)行建模時(shí)出現(xiàn)過度擬合。(PS:隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或者回歸問題上回過擬合)。
對(duì)于許多統(tǒng)計(jì)建模者來說,隨機(jī)森林給人的感覺就像一個(gè)黑盒子,你無法控制模型內(nèi)部的運(yùn)行。只能在不同的參數(shù)和隨機(jī)種子之間進(jìn)行嘗試。
可能有很多相似的決策樹,掩蓋了真實(shí)的結(jié)果。
對(duì)于小數(shù)據(jù)或者低維數(shù)據(jù)(特征較少的數(shù)據(jù)),可能不能產(chǎn)生很好的分類。(處理高維數(shù)據(jù),處理特征遺失數(shù)據(jù),處理不平衡數(shù)據(jù)是隨機(jī)森林的長處)。
執(zhí)行數(shù)據(jù)雖然比boosting等快(隨機(jī)森林屬于bagging),但比單只決策樹慢多了。

算法分析.docx

13.23 KB, 下載次數(shù): 2, 下載積分: 黑幣 -5

評(píng)分

參與人數(shù) 1黑幣 +50 收起 理由
admin + 50 共享資料的黑幣獎(jiǎng)勵(lì)!

查看全部評(píng)分

分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏 分享淘帖 頂 踩
回復(fù)

使用道具 舉報(bào)

本版積分規(guī)則

手機(jī)版|小黑屋|51黑電子論壇 |51黑電子論壇6群 QQ 管理員QQ:125739409;技術(shù)交流QQ群281945664

Powered by 單片機(jī)教程網(wǎng)

快速回復(fù) 返回頂部 返回列表