聆思CSK6大模型+AI交互多模態(tài)開(kāi)源SDK介紹

ID:1124148 · 發(fā)表于 2024-6-20 16:15

視覺(jué)語(yǔ)音大模型 AI 開(kāi)發(fā)套件( CSK6-MIX，如圖1)是圍繞 CSK6011A 芯片設(shè)計(jì)的具備豐富語(yǔ)音圖像功能與硬件外設(shè)的開(kāi)發(fā)板，采用具備豐富組件生態(tài)的 Zephyr RTOS作為操作系統(tǒng)，官方提供了十幾種開(kāi)源SDK，包含大模型語(yǔ)音交互、大模型拍照識(shí)圖、文生圖、人臉識(shí)別、頭肩追蹤、手勢(shì)識(shí)別、坐姿提醒等。

聆思科技還提供了模型訓(xùn)練推理工具將自己的算法模型部署至芯片上，也可以配合這個(gè)工具構(gòu)建自己的 AI 應(yīng)用。

語(yǔ)音交互與識(shí)圖功能介紹

SDK主要包含以下功能：

●語(yǔ)音交互：支持按鍵錄音或喚醒后通過(guò)語(yǔ)音與大模型進(jìn)行對(duì)話(huà)

●拍照識(shí)圖：支持通過(guò)攝像頭拍攝圖像并上傳給大模型進(jìn)行識(shí)別，支持依據(jù)識(shí)圖內(nèi)容進(jìn)行提問(wèn)

●圖片生成：支持通過(guò)語(yǔ)音交互描述畫(huà)面內(nèi)容，令大模型生成圖片并顯示至套件屏幕上

語(yǔ)音交互模式支持的語(yǔ)音交互模式

多模態(tài)SDK支持三種交互方式，其特點(diǎn)如下：

模式	喚醒方式	交互方式
按鍵交互	按下屏幕麥克風(fēng)圖標(biāo)或開(kāi)發(fā)板K3按鍵	按住按鍵說(shuō)話(huà)，松開(kāi)提交
語(yǔ)音喚醒(單輪)	喚醒詞 “小美小美”	聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn)，每次提問(wèn)均需要喚醒
語(yǔ)音喚醒(多輪)	喚醒詞 “小美小美”	聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn)，可持續(xù)對(duì)話(huà)，當(dāng)超過(guò)20秒無(wú)語(yǔ)音輸入時(shí)自動(dòng)結(jié)束本次交互

語(yǔ)音喚醒模式

當(dāng)設(shè)置為語(yǔ)音喚醒(單輪)或語(yǔ)音喚醒(多輪)，可通過(guò)喚醒詞 —— “小美小美” 對(duì)設(shè)備進(jìn)行喚醒，當(dāng)聽(tīng)到 “在呢” 的提示音后，即可正常進(jìn)行語(yǔ)音輸入。

拍照識(shí)圖

在待機(jī)頁(yè)，點(diǎn)擊拍照按鈕即可進(jìn)入取景頁(yè)面，對(duì)準(zhǔn)要拍照的物體，點(diǎn)擊右側(cè)中間的拍照鍵完成抓拍，確認(rèn)畫(huà)面抓拍正常后（無(wú)晃動(dòng)模糊的情況），點(diǎn)擊右側(cè)的 √ 進(jìn)行提交識(shí)別。

文生圖

在設(shè)備進(jìn)入語(yǔ)音交互狀態(tài)后，可以通過(guò)帶有繪畫(huà)意圖的提示詞讓大模型進(jìn)行作畫(huà)，比如：

● “畫(huà)一個(gè)人正在使用電腦”

● 結(jié)果如圖2所示

圖片生成與設(shè)備控制功能介紹

本示例主要包含以下功能：

● 可通過(guò)“小聆小聆”對(duì)設(shè)備進(jìn)行喚醒

● 可通過(guò)語(yǔ)音交互與大模型進(jìn)行對(duì)話(huà)

● 可通過(guò)語(yǔ)音交互使用大模型繪制圖片并顯示在屏幕上

● 可通過(guò)語(yǔ)音交互通過(guò)大模型控制屏幕顯示的顏色

● 支持通過(guò)LSPlatfrom接入自己的大模型應(yīng)用

大模型語(yǔ)音對(duì)話(huà)功能

● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒

● 套件被正常喚醒時(shí)，會(huì)播放應(yīng)答語(yǔ) —— "在呢"

● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件說(shuō)出我們的問(wèn)題，比如：“什么是大模型？”

● 稍等片刻后，開(kāi)發(fā)套件將播放返回的答案

大模型作畫(huà)

● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒

● 套件被正常喚醒時(shí)，會(huì)播放應(yīng)答語(yǔ) —— "在呢"

● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件以 “畫(huà)xx” 的句式說(shuō)出我們希望它繪制的圖像，比如：“畫(huà)一只大熊貓”（結(jié)果如圖3所示）

● 稍等片刻后，開(kāi)發(fā)套件將在顯示屏上顯示大模型根據(jù)我們需求生成的圖片

大模型控制設(shè)備

● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒

● 套件被正常喚醒時(shí)，會(huì)播放應(yīng)答語(yǔ) —— "在呢"

● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件件以 “把屏幕設(shè)置成xx” 的句式說(shuō)出希望屏幕顯示的顏色，比如：“把屏幕設(shè)置成大海一樣的顏色”

● 稍等片刻后，開(kāi)發(fā)套件將把屏幕設(shè)置成理解了我們描述后的顏色

● 結(jié)果如圖4所示

智能問(wèn)答與坐姿檢測(cè)功能介紹

本示例功能包含：

● 坐姿檢測(cè)：通過(guò)攝像頭檢測(cè)人員坐姿，并在出現(xiàn)不良坐姿時(shí)進(jìn)行提醒（紅燈閃爍）

● 語(yǔ)音識(shí)別：支持離線(xiàn)識(shí)別指定喚醒詞并進(jìn)行錄音

● 網(wǎng)絡(luò)：通過(guò) WIFI 芯片接入網(wǎng)絡(luò)，對(duì)接聆思大模型平臺(tái)，支持與大模型進(jìn)行對(duì)話(huà)

● 屏顯：通過(guò)顯示屏展示應(yīng)用相關(guān)動(dòng)畫(huà)界面

體驗(yàn)大模型語(yǔ)音對(duì)話(huà)功能

● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒

● 套件被正常喚醒時(shí)，會(huì)播放應(yīng)答語(yǔ) —— "在呢"

● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件說(shuō)出我們的問(wèn)題，比如：“什么是大模型？”

● 稍等片刻后，開(kāi)發(fā)套件將播放返回的答案

體驗(yàn)坐姿檢測(cè)

本示例工程中默認(rèn)啟用了坐姿檢測(cè)功能，當(dāng)攝像頭識(shí)別到不良坐姿時(shí)，開(kāi)發(fā)板上也將閃爍紅色 LED 進(jìn)行提醒，同時(shí)，我們也可通過(guò) PC 工具查看實(shí)時(shí)拍攝的圖像與坐姿檢測(cè)結(jié)果。

本示例運(yùn)行時(shí)，攝像頭將持續(xù)拍攝圖像并并送入坐姿檢測(cè)算法進(jìn)行處理，當(dāng)檢測(cè)到畫(huà)面中出現(xiàn)不良坐姿(如趴桌、手托臉等)時(shí)，將閃爍紅色 LED 進(jìn)行提醒。

借助串口連接即可看到預(yù)覽圖和識(shí)別結(jié)果，如圖5所示。

相關(guān)資料

大模型多模態(tài)應(yīng)用開(kāi)發(fā)培訓(xùn)視頻：https://b23.tv/0Fk5PyC

帳號(hào)		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)

聆思CSK6大模型+AI交互多模態(tài)開(kāi)源SDK介紹

相關(guān)帖子