近日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院環(huán)繞智能與多模態(tài)研究室提出從語音到舌超聲生成的統(tǒng)一擴(kuò)散模型框架,能夠根據(jù)輸入的未知語音信號(例如健康或病理性語音),自適應(yīng)地生成高保真度的舌體超聲數(shù)據(jù),這項(xiàng)研究為解決言語障礙評估與康復(fù)中的相關(guān)技術(shù)難題提供了新路徑,相關(guān)研究已正式發(fā)表于國際期刊Information Fusion。
從“聽聲音”到“看舌動”的智能跨越
在言語治療與康復(fù)領(lǐng)域,準(zhǔn)確、直觀觀察發(fā)音時舌頭的內(nèi)部運(yùn)動對于診斷評估與康復(fù)訓(xùn)練具有關(guān)鍵意義。然而,傳統(tǒng)超聲舌成像設(shè)備因操作專業(yè)要求高、成本昂貴,在臨床普及上面臨較多限制。聲學(xué)-發(fā)音反轉(zhuǎn)(Acoustic-to-articulatory inversion,AAI)作為語音處理的重要方向,致力于從語音信號中推斷發(fā)音器官的運(yùn)動姿態(tài),構(gòu)建聲音與形體之間的“翻譯橋梁”。該技術(shù)能夠?qū)⒁子讷@取的語音信號,轉(zhuǎn)化為難以直接觀測的發(fā)音生理數(shù)據(jù),為言語康復(fù)、語言教學(xué)乃至無聲語音接口的開發(fā)提供新路徑。因此,基于AAI技術(shù)實(shí)現(xiàn)的語音到舌超聲生成方法,通過算法僅憑語音信號即可“推算”出對應(yīng)的舌體運(yùn)動數(shù)據(jù),為臨床提供了一種低成本、非侵入式的可視化解決方案。
統(tǒng)一框架破解兩大臨床技術(shù)難題
該技術(shù)長期面臨兩大挑戰(zhàn):一是配對的病理性語音-舌動數(shù)據(jù)極其稀缺,導(dǎo)致模型泛化性能差;二是健康與病理性言語在發(fā)音機(jī)制和聲學(xué)特性上存在顯著差異,導(dǎo)致模型在處理未知類型的語音時容易失敗。
面對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了 Uni-UTIDiff統(tǒng)一框架。該框架的核心優(yōu)勢在于:
統(tǒng)一建模:首次使用統(tǒng)一模型同時處理健康與病理性語音,無需為不同人群分別訓(xùn)練專家模型,極大提升了數(shù)據(jù)利用效率和模型通用性。
智能辨音:基于對比聚類的無監(jiān)督發(fā)音模式提取器,能自動判別輸入語音是正常還是異常,無需人工標(biāo)注,進(jìn)一步挖掘更多隱藏特征表示。
自適應(yīng)生成:自適應(yīng)條件融合模塊能動態(tài)地將語音特征與識別出的發(fā)音模式相結(jié)合,確保生成的舌動圖像既符合語音內(nèi)容,又保留了特定發(fā)音模式(如病理性異常)的細(xì)節(jié)。
實(shí)驗(yàn)結(jié)果表明,Uni-UTIDiff 不僅在統(tǒng)一框架下能夠分別達(dá)到針對健康與病理語音的專家模型性能水平,還能在生成的舌超聲圖像中展現(xiàn)出優(yōu)異的清晰度與自然度,充分驗(yàn)證了其在跨發(fā)音模式下的魯棒生成能力。
新一代言語智能康復(fù)與遠(yuǎn)程醫(yī)療的應(yīng)用前景
這項(xiàng)技術(shù)意味著,未來我們有可能僅通過一個APP收錄的用戶語音,即可生成其對應(yīng)的發(fā)音器官內(nèi)部運(yùn)動,為下述不同場景帶來應(yīng)用變化:
精準(zhǔn)康復(fù)與遠(yuǎn)程醫(yī)療平臺:為不同地區(qū)的構(gòu)音障礙患者提供專業(yè)言語治療服務(wù)。患者通過實(shí)時可視化的舌位運(yùn)動生物反饋,幫助其更有效地進(jìn)行家庭專業(yè)康復(fù)訓(xùn)練。
臨床輔助診斷:作為篩查工具輔助醫(yī)生快速評估患者的言語運(yùn)動功能,生成客觀的影像報告,提升診斷效率。
語言教學(xué)與保護(hù):可用于語言教學(xué),幫助學(xué)習(xí)者直觀理解發(fā)音要領(lǐng);記錄或推斷特定罕見語言的發(fā)音生理特征。
中國科學(xué)院深圳先進(jìn)技術(shù)研究院王嵐、燕楠研究員為共同通訊作者,研究助理楊毓棟和高級工程師蘇榮鋒為共同第一作者。此外,中山大學(xué)第八附屬醫(yī)院招少楓主任、香港大學(xué)Manwa.L.Ng教授為論文的共同作者。該研究獲得國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金、深圳市自然基金重點(diǎn)項(xiàng)目等項(xiàng)目支持。

文章上線截圖,論文鏈接:https://doi.org/10.1016/j.inffus.2025.103896

圖1?整體方法流程圖

圖2 Uni-UTIDiff的訓(xùn)練和推理細(xì)節(jié)

圖3?模型生成效果圖(自適應(yīng)區(qū)分健康和異常患者)

附件下載:

