找回密碼
 立即注冊(cè)

QQ登錄

只需一步,快速開(kāi)始

搜索
查看: 747|回復(fù): 0
收起左側(cè)

聆思CSK6大模型+AI交互多模態(tài)開(kāi)源SDK介紹

[復(fù)制鏈接]
ID:1124148 發(fā)表于 2024-6-20 16:15 | 顯示全部樓層 |閱讀模式
視覺(jué)語(yǔ)音大模型 AI 開(kāi)發(fā)套件( CSK6-MIX,如圖1)是圍繞 CSK6011A 芯片設(shè)計(jì)的具備豐富語(yǔ)音圖像功能與硬件外設(shè)的開(kāi)發(fā)板,采用具備豐富組件生態(tài)的 Zephyr RTOS作為操作系統(tǒng),官方提供了十幾種開(kāi)源SDK,包含大模型語(yǔ)音交互、大模型拍照識(shí)圖、文生圖、人臉識(shí)別、頭肩追蹤、手勢(shì)識(shí)別、坐姿提醒等。
聆思科技還提供了模型訓(xùn)練推理工具將自己的算法模型部署至芯片上,也可以配合這個(gè)工具構(gòu)建自己的 AI 應(yīng)用。
語(yǔ)音交互與識(shí)圖功能介紹
SDK主要包含以下功能:
●語(yǔ)音交互:支持按鍵錄音或喚醒后通過(guò)語(yǔ)音與大模型進(jìn)行對(duì)話(huà)
●拍照識(shí)圖:支持通過(guò)攝像頭拍攝圖像并上傳給大模型進(jìn)行識(shí)別,支持依據(jù)識(shí)圖內(nèi)容進(jìn)行提問(wèn)
●圖片生成:支持通過(guò)語(yǔ)音交互描述畫(huà)面內(nèi)容,令大模型生成圖片并顯示至套件屏幕上
語(yǔ)音交互模式支持的語(yǔ)音交互模式
多模態(tài)SDK支持三種交互方式,其特點(diǎn)如下:
模式
喚醒方式
交互方式
按鍵交互
按下屏幕麥克風(fēng)圖標(biāo)或開(kāi)發(fā)板K3按鍵
按住按鍵說(shuō)話(huà),松開(kāi)提交
語(yǔ)音喚醒(單輪)
喚醒詞 “小美小美”
聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn),每次提問(wèn)均需要喚醒
語(yǔ)音喚醒(多輪)
喚醒詞 “小美小美”
聽(tīng)到提示音 “在呢” 后進(jìn)行提問(wèn),可持續(xù)對(duì)話(huà),當(dāng)超過(guò)20秒無(wú)語(yǔ)音輸入時(shí)自動(dòng)結(jié)束本次交互
語(yǔ)音喚醒模式
當(dāng)設(shè)置為語(yǔ)音喚醒(單輪)或語(yǔ)音喚醒(多輪),可通過(guò)喚醒詞 —— “小美小美” 對(duì)設(shè)備進(jìn)行喚醒,當(dāng)聽(tīng)到 “在呢” 的提示音后,即可正常進(jìn)行語(yǔ)音輸入。
拍照識(shí)圖
在待機(jī)頁(yè),點(diǎn)擊拍照按鈕即可進(jìn)入取景頁(yè)面,對(duì)準(zhǔn)要拍照的物體,點(diǎn)擊右側(cè)中間的拍照鍵完成抓拍,確認(rèn)畫(huà)面抓拍正常后(無(wú)晃動(dòng)模糊的情況),點(diǎn)擊右側(cè)的 √ 進(jìn)行提交識(shí)別。
文生圖
在設(shè)備進(jìn)入語(yǔ)音交互狀態(tài)后,可以通過(guò)帶有繪畫(huà)意圖的提示詞讓大模型進(jìn)行作畫(huà),比如:
● “畫(huà)一個(gè)人正在使用電腦”
● 結(jié)果如圖2所示
圖片生成與設(shè)備控制功能介紹
本示例主要包含以下功能:
● 可通過(guò)“小聆小聆”對(duì)設(shè)備進(jìn)行喚醒
● 可通過(guò)語(yǔ)音交互與大模型進(jìn)行對(duì)話(huà)
● 可通過(guò)語(yǔ)音交互使用大模型繪制圖片并顯示在屏幕上
● 可通過(guò)語(yǔ)音交互通過(guò)大模型控制屏幕顯示的顏色
● 支持通過(guò)LSPlatfrom接入自己的大模型應(yīng)用
大模型語(yǔ)音對(duì)話(huà)功能
● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語(yǔ) —— "在呢"
● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件說(shuō)出我們的問(wèn)題,比如:“什么是大模型?”
● 稍等片刻后,開(kāi)發(fā)套件將播放返回的答案
大模型作畫(huà)
● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語(yǔ) —— "在呢"
● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件以 “畫(huà)xx” 的句式說(shuō)出我們希望它繪制的圖像,比如:“畫(huà)一只大熊貓”(結(jié)果如圖3所示)
● 稍等片刻后,開(kāi)發(fā)套件將在顯示屏上顯示大模型根據(jù)我們需求生成的圖片
大模型控制設(shè)備
● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語(yǔ) —— "在呢"
● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件件以 “把屏幕設(shè)置成xx” 的句式說(shuō)出希望屏幕顯示的顏色,比如:“把屏幕設(shè)置成大海一樣的顏色”
● 稍等片刻后,開(kāi)發(fā)套件將把屏幕設(shè)置成理解了我們描述后的顏色
● 結(jié)果如圖4所示
智能問(wèn)答與坐姿檢測(cè)功能介紹
本示例功能包含:
● 坐姿檢測(cè):通過(guò)攝像頭檢測(cè)人員坐姿,并在出現(xiàn)不良坐姿時(shí)進(jìn)行提醒(紅燈閃爍)
● 語(yǔ)音識(shí)別:支持離線(xiàn)識(shí)別指定喚醒詞并進(jìn)行錄音
● 網(wǎng)絡(luò):通過(guò) WIFI 芯片接入網(wǎng)絡(luò),對(duì)接聆思大模型平臺(tái),支持與大模型進(jìn)行對(duì)話(huà)
● 屏顯:通過(guò)顯示屏展示應(yīng)用相關(guān)動(dòng)畫(huà)界面
體驗(yàn)大模型語(yǔ)音對(duì)話(huà)功能
● 我們可以通過(guò) “小聆小聆” 喚醒詞對(duì)開(kāi)發(fā)套件進(jìn)行喚醒
● 套件被正常喚醒時(shí),會(huì)播放應(yīng)答語(yǔ) —— "在呢"
● 此時(shí)我們可以接著對(duì)開(kāi)發(fā)套件說(shuō)出我們的問(wèn)題,比如:“什么是大模型?”
● 稍等片刻后,開(kāi)發(fā)套件將播放返回的答案
體驗(yàn)坐姿檢測(cè)
本示例工程中默認(rèn)啟用了坐姿檢測(cè)功能,當(dāng)攝像頭識(shí)別到不良坐姿時(shí),開(kāi)發(fā)板上也將閃爍紅色 LED 進(jìn)行提醒,同時(shí),我們也可通過(guò) PC 工具查看實(shí)時(shí)拍攝的圖像與坐姿檢測(cè)結(jié)果。
本示例運(yùn)行時(shí),攝像頭將持續(xù)拍攝圖像并并送入坐姿檢測(cè)算法進(jìn)行處理,當(dāng)檢測(cè)到畫(huà)面中出現(xiàn)不良坐姿(如趴桌、手托臉等)時(shí),將閃爍紅色 LED 進(jìn)行提醒。
借助串口連接即可看到預(yù)覽圖和識(shí)別結(jié)果,如圖5所示。
相關(guān)資料

大模型多模態(tài)應(yīng)用開(kāi)發(fā)培訓(xùn)視頻:https://b23.tv/0Fk5PyC



回復(fù)

使用道具 舉報(bào)

本版積分規(guī)則

小黑屋|51黑電子論壇 |51黑電子論壇6群 QQ 管理員QQ:125739409;技術(shù)交流QQ群281945664

Powered by 單片機(jī)教程網(wǎng)

快速回復(fù) 返回頂部 返回列表