找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

搜索
查看: 795|回復(fù): 0
打印 上一主題 下一主題
收起左側(cè)

聆思CSK6大模型多模態(tài)語音交互開源SDK介紹

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
樓主
ID:1124148 發(fā)表于 2024-6-13 15:35 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
聆思CSK6大模型多模態(tài)SDK除了支持語音交互之外,還支持圖像方面的交互,包括對圖像的識別以及圖片生成。用戶可以通過語音交互、攝像頭拍照作為交互入口,實現(xiàn)與大模型的多模態(tài)交互。
SDK主要包含以下功能:
●語音交互:支持按鍵錄音或喚醒后通過語音與大模型進行對話
●拍照識圖:支持通過攝像頭拍攝圖像并上傳給大模型進行識別,支持依據(jù)識圖內(nèi)容進行提問
●圖片生成:支持通過語音交互描述畫面內(nèi)容,令大模型生成圖片并顯示至套件屏幕上
語音交互模式支持的語音交互模式
多模態(tài)SDK支持三種交互方式,其特點如下:
模式
喚醒方式
交互方式
按鍵交互
按下屏幕麥克風(fēng)圖標或開發(fā)板K3按鍵
按住按鍵說話,松開提交
語音喚醒(單輪)
喚醒詞 “小美小美”
聽到提示音 “在呢” 后進行提問,每次提問均需要喚醒
語音喚醒(多輪)
喚醒詞 “小美小美”
聽到提示音 “在呢” 后進行提問,可持續(xù)對話,當超過20秒無語音輸入時自動結(jié)束本次交互
語音交互模式的切換
在待機頁面,下滑可調(diào)出下滑菜單,點擊下滑菜單中的 設(shè)置圖標,可進行配置頁面。
選中對應(yīng)的模式后,點擊左上角即可回到待機頁面并生效。
按鍵交互模式
設(shè)置成按鍵交互(按鍵喚醒)模式下,按住屏幕上的麥克風(fēng)按鈕或開發(fā)板上的K3按鍵,即進入錄音狀態(tài),松開按鍵則結(jié)束錄音并提交。
語音喚醒模式
當設(shè)置為語音喚醒(單輪)或語音喚醒(多輪),可通過喚醒詞 —— “小美小美” 對設(shè)備進行喚醒,當聽到 “在呢” 的提示音后,即可正常進行語音輸入。
退出對話
在使用過程中,點擊左上角即可結(jié)束本輪對話回到待機頁面,此操作會同步清除本次對話的上下文信息。
拍照識圖
在待機頁,點擊拍照按鈕即可進入取景頁面,對準要拍照的物體,點擊右側(cè)中間的拍照鍵完成抓拍,確認畫面抓拍正常后(無晃動模糊的情況),點擊右側(cè)的 √ 進行提交識別。
文生圖
在設(shè)備進入語音交互狀態(tài)后,可以通過帶有繪畫意圖的提示詞讓大模型進行作畫,比如:
●“畫一只熊貓”(結(jié)果看下方圖片附件)
SDK資源下

熊貓.png (310.62 KB, 下載次數(shù): 14)

熊貓.png
分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏 分享淘帖 頂 踩
回復(fù)

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

手機版|小黑屋|51黑電子論壇 |51黑電子論壇6群 QQ 管理員QQ:125739409;技術(shù)交流QQ群281945664

Powered by 單片機教程網(wǎng)

快速回復(fù) 返回頂部 返回列表