|
這個(gè)問題討論了好久了,最新的一個(gè)事實(shí)是:AI模型為了取得最快最好的結(jié)果,繞過的CUDA語言,直接用內(nèi)層的語言,相當(dāng)于不用C語言,直接用匯編了,所以C語言和匯編都要學(xué),在極端情況下,用匯編才能取得突破。
附錄:
△ DeepSeek-V3 Technical Report
這種操作是用英偉達(dá)的PTX(Parallel Thread Execution)語言實(shí)現(xiàn)的,而不是CUDA。
PTX在接近匯編語言的層級(jí)運(yùn)行,允許進(jìn)行細(xì)粒度的優(yōu)化,如寄存器分配和Thread/Warp級(jí)別的調(diào)整。
這種編程非常復(fù)雜且難以維護(hù),所以行業(yè)通用的做法是使用CUDA這樣的高級(jí)編程語言。
換句話說,他們把優(yōu)化做到了極致。
REF: 雷陣雨CUDA(Compute Unified Device Architecture)是NVIDIA開發(fā)的并行計(jì)算平臺(tái)和編程模型,允許開發(fā)者使用NVIDIA GPU進(jìn)行通用計(jì)算。它擴(kuò)展了C/C++等編程語言,使開發(fā)者能夠利用GPU的強(qiáng)大計(jì)算能力加速應(yīng)用程序。
|
|