聆思CSK6大模型開發(fā)板視覺識別類開源SDK介紹

ID:1124148 · 發(fā)表于 2024-6-17 16:17

大模型開發(fā)板除了語音交互之外，還配套有大模型拍照識圖和坐姿檢測、人臉識別、活體識別、頭肩跟隨、手勢識別、物體分類等七個線視覺識別方面的交互示例等。

聯(lián)網(wǎng)使用	大模型圖片分析+拍照
離線識別	坐姿檢測、人臉識別、活體識別、頭肩跟隨、手勢識別、物體分類

SDK介紹1、大模型語音交互+拍照識圖SDK
SDK功能

● 語音交互：支持按鍵錄音或喚醒后通過語音與大模型進行對話

● 拍照識圖：支持通過攝像頭拍攝圖像并上傳給大模型進行識別，支持依據(jù)識圖內(nèi)容進行提問

● 圖片生成：支持通過語音交互描述畫面內(nèi)容，令大模型生成圖片并顯示至套件屏幕上

拍照識圖

在待機頁，點擊拍照按鈕即可進入取景頁面，對準(zhǔn)要拍照的物體，點擊右側(cè)中間的拍照鍵完成抓拍，確認(rèn)畫面抓拍正常后（無晃動模糊的情況），點擊右側(cè)的 √ 進行提交識別。

2、坐姿檢測SDK
算法簡介

CSK6 大模型開發(fā)套件可檢測圖像中人物的坐姿情況，并對各種不良的坐姿進行識別，當(dāng)畫面中有坐姿信息時，顯示屏上將實時對人物的關(guān)鍵骨骼點進行標(biāo)注并顯示該人物的包含手、身體狀態(tài)在內(nèi)的坐姿檢測結(jié)果，結(jié)果包含一下內(nèi)容：

● 手狀態(tài)：正常/下垂/撐臉

● 身體狀態(tài)：正常/趴桌/傾斜/駝背/離席

CSK6 芯片支持運行坐姿檢測 AI算法，具備以下特性：

● 硬件上僅需配合 30W 像素鏡頭模組，性價比出色

● 純離線運行算法，無需聯(lián)網(wǎng)，保障隱私

● 檢測準(zhǔn)確率＞ 97%，響應(yīng)時間＜ 18ms

● 識別距離：推薦 40cm ~ 60cm, 建議不超過 110cm

3、人臉識別SDK
人臉識別算法簡介

人臉識別算法具備以下特性：

● 支持檢測圖像中人臉信息，選取畫面中分值最高的人臉，返回人臉邊界框、人臉標(biāo)定點、頭部姿態(tài)角度、人臉識別特征等

● 人臉標(biāo)定點支持68個關(guān)鍵點檢測

● 頭部姿態(tài)角度支持pitch、roll、yaw三個角度

● 支持特征比較：將檢測到的人臉特征值和本地存儲的人臉特征值輸入算法進行比對，并返回比對結(jié)果

應(yīng)用場景

離線人臉識別適用于網(wǎng)絡(luò)條件不穩(wěn)定、無網(wǎng)、數(shù)據(jù)安全性要求高、人臉庫較�。�20人以下）單臺設(shè)備的人臉識別場景。常見于人臉門禁、小型企業(yè)考勤機、自助終端設(shè)備等。

算法效果指標(biāo)數(shù)據(jù)
識別效果

在1m距離內(nèi)，測試特征底庫10個，人臉識別效果分別為：

識別能力	識別率	虛警率
人臉識別	95%	0.1%

人臉標(biāo)定	平均誤差(NME)約為0.04
頭部姿態(tài)	模型預(yù)測平均偏差約為±3°
全流程耗時	100ms以內(nèi)

使用介紹
人臉識別示例工程的使用

調(diào)用人臉識別算法，可以通過開發(fā)板上的按鍵操作進行人臉注冊、臉識別，并通過圖像預(yù)覽工具查看攝像頭的畫面與輸出結(jié)果。

固件功能說明

程序運行后，默認(rèn)會在屏幕上顯示實時的攝像頭畫面并在畫面中使用方框?qū)崟r標(biāo)注出人臉，并通過方框的顏色指示不同的識別狀態(tài)。

可以按照以下流程進行人臉識別功能的使用：

● Step1：檢測到人臉 (屏幕顯示黃色框 / 開發(fā)板LED亮黃色)

● Step2：按K1按鍵注冊當(dāng)前人臉特征 (屏幕 registered參數(shù)增加1 /開發(fā)板LED閃爍藍(lán)色)

● Step3：按K2對當(dāng)前人臉進行識別比對

○ 識別通過：屏幕顯示綠色框 / 開發(fā)板LED亮綠色

○ 識別未通過：屏幕顯示紅色框 / 開發(fā)板LED亮紅色

LED指示狀態(tài)

● 黃色：檢測到人臉

● 綠色：人臉特征比對通過

● 紅色：人臉特征比對未通過

按鍵功能

● K1：錄入當(dāng)前檢測到的人臉特征

● K2：將當(dāng)然的人臉特征與之前錄入的特征進行比較

● K3：開關(guān)攝像頭紅外補光燈(安裝紅外攝像頭時)

4、活體識別
功能說明

需要搭配帶補光燈的紅外攝像頭，結(jié)合人臉識別算法，實現(xiàn)對活體的檢測。

程序運行后，默認(rèn)會在屏幕上顯示實時的攝像頭畫面并在畫面中使用方框?qū)崟r標(biāo)注出人臉，并通過方框的顏色指示不同的識別狀態(tài)。

1.注冊人臉

當(dāng)LED為黃色時(檢測到人臉)，按動K1按鍵，此時將會錄入當(dāng)前檢測到的人臉特征，錄入成功后，可看到屏幕上顯示的registered 數(shù)量增加1，說明本次錄入已完成并加入人臉特征庫。

2.比對人臉

當(dāng)LED為黃色時(檢測到人臉)，按動K2按鍵，此時固件會將當(dāng)前攝像頭前檢測到的人臉與已錄入的人臉特征進行比對，若對比成功(命中已錄入的人臉特征)，屏幕中圈中人臉的框?qū)⒆優(yōu)榫G色，同時開發(fā)板上的LED顏色將變?yōu)榫G色，表示人臉特征比對通過，并在屏幕上顯示匹配的人臉特征序號(id)與評分(score)。

若比對不通過，即當(dāng)前人臉未在人臉特征庫中錄入過，屏幕中圈中人臉的框?qū)⒆優(yōu)榧t色，同時開發(fā)板上的LED顏色將變?yōu)榧t色，表示人臉特征比對通過。

3.串口日志的查看

本示例同樣支持串口日志的打印，可通過連接開發(fā)板上的DAP_USB 并使用串口工具打開對應(yīng)的串口設(shè)備進行日志查看，默認(rèn)波特率 115200，伴隨著人臉錄入、人臉比對等操作，可看到日志串口有對應(yīng)的結(jié)果輸出。

5、頭肩跟隨+手勢識別SDK
頭肩跟隨頭肩算法介紹

檢測圖像中所有人體的頭肩位置，返回每個頭肩的唯一id、位置坐標(biāo)、檢測得分等；

● 通過攝像頭實時獲取圖像并在屏幕上進行預(yù)覽顯示

● 在屏幕展示的畫面中標(biāo)注頭肩檢測和手勢識別的結(jié)果與評分

手勢識別

通過頭肩檢測識別用戶的手勢，返回當(dāng)前目標(biāo)的手勢、得分等；

支持5種手勢，分別為LIKE(👍)、OK(👌)、STOP(🤚)、YES(✌️)、SIX(🤙)；

應(yīng)用場景
跟拍云臺

在直播、視頻通話場景，通過云臺實現(xiàn)人體追蹤，讓手機一直正面朝向用戶進行錄像。并且可以通過手勢開啟、停止追蹤。

算法參數(shù)
（1）識別效果

為了讓用戶在常用的交互距離取得比較好的識別效果，我們建議頭肩跟蹤跟手勢識別最短交互距離為0.5m，最佳交互距分別為3.5m/3m，所對應(yīng)的識別效果如下：

識別能力	最佳交互距離	識別率	虛警率
頭肩跟蹤	3.5m	95%	5%
手勢識別	3m	91%	5%

（2）幀率

以下是分別在單人和多人場景下的幀率：

場景	識別能力	幀率
單人	頭肩追蹤、手勢識別	15FPS
多人	頭肩追蹤、手勢識別	10FPS

6、物體分類
算法簡介

CSK6 大模型開發(fā)套件可通過攝像頭抓拍畫面并對該畫面進行物體分類識別，支持包括蘋果、床、鍵盤等100+種物體的識別。通過觸摸屏可進行取景與抓拍控制，完成拍照后將自動識別并在屏幕上顯示識別結(jié)果。

本示例演示在開發(fā)套件上運行基于pytorch-cifar100（https://github.com/weiaicunzai/pytorch-cifar100）訓(xùn)練的resnet18物體分類模型，支持通過攝像頭拍照并完成對指定物品的分類識別。

本模型支持以下物體的分類識別：

"apple",    "aquarium_fish", "baby",    "bear",    "beaver",    "bed",
"bee",       "beetle",       "bicycle", "bottle",    "bowl",       "boy",
"bridge",    "bus",          "butterfly", "camel",    "can",       "castle",
"caterpillar", "cattle",       "chair",    "chimpanzee", "clock",       "cloud",
"cockroach", "couch",       "crab",    "crocodile",  "cup",       "dinosaur",
"dolphin",    "elephant",    "flatfish",  "forest",    "fox",       "girl",
"hamster",    "house",       "kangaroo",  "keyboard", "lamp",       "lawn_mower",
"leopard",    "lion",       "lizard", "lobster", "man",       "maple_tree",
"motorcycle",  "mountain",    "mouse",    "mushroom", "oak_tree",    "orange",
"orchid",    "otter",       "palm_tree", "pear",    "pickup_truck", "pine_tree",
"plain",    "plate",       "poppy",    "porcupine",  "possum",    "rabbit",
"raccoon",    "ray",          "road",    "rocket",    "rose",       "sea",
"seal",       "shark",       "shrew",    "skunk",    "skyscraper", "snail",
"snake",    "spider",       "squirrel",  "streetcar",  "sunflower", "sweet_pepper",
"table",    "tank",       "telephone", "television", "tiger",       "tractor",
"train",    "trout",       "tulip",    "turtle",    "wardrobe",    "whale",
"willow_tree", "wolf",       "woman",    "worm"

本示例基于開源項目進行移植適配，僅用于 CV 能力的驗證與評估，不代表適用于商用項目。

功能實現(xiàn)

● 點擊屏幕翻轉(zhuǎn) 按鈕，可實現(xiàn)對攝像頭的影像預(yù)覽翻轉(zhuǎn)，可根據(jù)攝像頭是否安裝在開發(fā)板背面進行切換

● 點擊屏幕 TAKE 按鈕，可對當(dāng)面畫面進行拍照并識別

SDK資源下載

大模型拍照識圖：https://cloud.listenai.com/CSKG9 ... e_open/apps/LLM_pic

其他功能SDK下載地址：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

● 坐姿檢測： apps目錄下，工程目錄名稱為 lcd_spd

● 人臉識別： apps目錄下，工程目錄名稱為 fd

● 活體識別： apps目錄下，工程目錄名稱為 fdh

● 頭肩跟隨+手勢識別： apps目錄下，工程目錄名稱為 hsd

● 物體分類： apps目錄下，工程目錄名稱為 resnet18

已打包好的DEMO固件下載：

● 大模型拍照識圖固件：https://docs2.listenai.com/x/UzjbjIAxw

● 坐姿檢測： https://docs2.listenai.com/x/D3CV6m1w6

● 人臉識別： https://docs2.listenai.com/x/C176n3JaJ

● 活體識別： https://docs2.listenai.com/x/Pr51i42rn

● 頭肩跟隨+手勢識別：https://docs2.listenai.com/x/UGGyPHCTL

● 物體分類： https://docs2.listenai.com/x/urrNYp4Ie

補充開發(fā)板信息

開發(fā)板具備豐富語音圖像功能與硬件外設(shè)的開發(fā)板，采用有著豐富組件生態(tài)的 Zephyr RTOS 作為操作系統(tǒng)，默認(rèn)配套開箱即玩的 AI 應(yīng)用，也可以配合聆思的模型訓(xùn)練推理工具 LNN 將自己的算法模型部署至芯片上，構(gòu)建自己的 AI 應(yīng)用，開發(fā)板詳情參考：https://docs2.listenai.com/x/nTn9kMMCU

帳號		自動登錄	找回密碼
密碼			立即注冊

聆思CSK6大模型開發(fā)板視覺識別類開源SDK介紹

相關(guān)帖子