阿里大模型產品“通義聽悟”發布多項新功能,上線音視頻問答助手“小悟”、一鍵 AI 改寫、思維導圖生成等六大功能。
通義聽悟接入通義千問大模型,融合了十多項 AI 功能,包括轉寫、翻譯、角色分離、全文摘要、章節速覽、發言總結、PPT 提取等,并支持標重點、記筆記。
通義聽悟本次升級上新了六大功能點,其中最重磅的是音視頻問答助手“小悟”,關鍵信息直接“問”出來。小悟通過多語言 Query 處理、長篇章文本理解、指令演化框架優化及檢索增強生成算法,在業內首次實現對超長音視頻的單記錄、跨記錄、多語言自由問答,支持內容問答的音視頻時長和文件數均突破業界上限。
用戶不僅可在單一記錄頁呼喚小悟,對最高 6 小時、6G 大小的音視頻提問任何相關話題,或直接小悟要求整理金句、梳理結論、寫會議紀要;更可在首頁針對用戶所有記錄提問,支持一次性掃描理解上百條音視頻內容;也可花式對英文視頻用中文提問,小悟將直接給出中文回答,省去翻譯。作為一個“懂你”的 AI,小悟還會智能推薦問題。
針對用戶需求,通義聽悟還上線了一鍵 AI 改寫、思維導圖生成等新能力。例如,一鍵 AI 改寫,將口語轉為書面表達,尤其適合整理采訪;思維導圖自動生成,最多支持五級 xmind 腦圖,適合播客摘要。
▲ 通義聽悟思維導圖示例
產品細節體驗也進一步升級,包括筆記支持一鍵插入視頻時間戳及截圖、音視頻文件語種自動識別等。
此外,通義聽悟推出“高校公益計劃”,所有中國大陸高校師生通過后綴 edu.cn 的教育郵箱進行認證后,均可直接獲贈 500 小時轉寫時長,存儲空間從 20G 拓展至 200G。
據官方介紹,作為國內首個開放公測的大模型產品,去年 6 月發布以來,通義聽悟累計已有上百萬用戶,包括學生、老師、白領、記者、律師、金融分析師等群體,活躍用戶日均轉寫音視頻 3 次以上,平臺每天處理字符數約 20 億字。