聆思CSK6大模型多模態(tài)語音交互開源SDK介紹

ID:1124148 · 發(fā)表于 2024-6-13 15:35

聆思CSK6大模型多模態(tài)SDK除了支持語音交互之外，還支持圖像方面的交互，包括對(duì)圖像的識(shí)別以及圖片生成。用戶可以通過語音交互、攝像頭拍照作為交互入口，實(shí)現(xiàn)與大模型的多模態(tài)交互。

SDK主要包含以下功能：

●語音交互：支持按鍵錄音或喚醒后通過語音與大模型進(jìn)行對(duì)話

●拍照識(shí)圖：支持通過攝像頭拍攝圖像并上傳給大模型進(jìn)行識(shí)別，支持依據(jù)識(shí)圖內(nèi)容進(jìn)行提問

●圖片生成：支持通過語音交互描述畫面內(nèi)容，令大模型生成圖片并顯示至套件屏幕上

語音交互模式支持的語音交互模式

多模態(tài)SDK支持三種交互方式，其特點(diǎn)如下：

模式	喚醒方式	交互方式
按鍵交互	按下屏幕麥克風(fēng)圖標(biāo)或開發(fā)板K3按鍵	按住按鍵說話，松開提交
語音喚醒(單輪)	喚醒詞 “小美小美”	聽到提示音 “在呢” 后進(jìn)行提問，每次提問均需要喚醒
語音喚醒(多輪)	喚醒詞 “小美小美”	聽到提示音 “在呢” 后進(jìn)行提問，可持續(xù)對(duì)話，當(dāng)超過20秒無語音輸入時(shí)自動(dòng)結(jié)束本次交互

語音交互模式的切換

在待機(jī)頁面，下滑可調(diào)出下滑菜單，點(diǎn)擊下滑菜單中的設(shè)置圖標(biāo)，可進(jìn)行配置頁面。

選中對(duì)應(yīng)的模式后，點(diǎn)擊左上角即可回到待機(jī)頁面并生效。

按鍵交互模式

設(shè)置成按鍵交互(按鍵喚醒)模式下，按住屏幕上的麥克風(fēng)按鈕或開發(fā)板上的K3按鍵，即進(jìn)入錄音狀態(tài)，松開按鍵則結(jié)束錄音并提交。

語音喚醒模式

當(dāng)設(shè)置為語音喚醒(單輪)或語音喚醒(多輪)，可通過喚醒詞 —— “小美小美” 對(duì)設(shè)備進(jìn)行喚醒，當(dāng)聽到 “在呢” 的提示音后，即可正常進(jìn)行語音輸入。

退出對(duì)話

在使用過程中，點(diǎn)擊左上角即可結(jié)束本輪對(duì)話回到待機(jī)頁面，此操作會(huì)同步清除本次對(duì)話的上下文信息。

拍照識(shí)圖

在待機(jī)頁，點(diǎn)擊拍照按鈕即可進(jìn)入取景頁面，對(duì)準(zhǔn)要拍照的物體，點(diǎn)擊右側(cè)中間的拍照鍵完成抓拍，確認(rèn)畫面抓拍正常后（無晃動(dòng)模糊的情況），點(diǎn)擊右側(cè)的 √ 進(jìn)行提交識(shí)別。

文生圖

在設(shè)備進(jìn)入語音交互狀態(tài)后，可以通過帶有繪畫意圖的提示詞讓大模型進(jìn)行作畫，比如：

●“畫一只熊貓”（結(jié)果看下方圖片附件）

SDK資源下

帳號(hào)		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)