王新民的首頁

Research Descriptions

我的研究興趣包括口語處理、自然語言處理、多媒體資訊檢索、機器學習及圖形識別。研究目標是開發多媒體音訊分析、抽取、辨識、索引及檢索技術，特別是語音和音樂。

在語音方面，目前的研究課題包括語音辨識、說話人辨識、口語語言辨識、語音轉換和語音文件檢索/摘要。最近的研究成果包括基於局部線性嵌入的語音轉換和後置濾波方法，用於語音/說話人辨識的鑑別式自動編碼器，以及用於語音文件檢索/摘要的段落嵌入學習方法。進行中的研究包括用於口語/方言/口音辨識的子空間神經網路，多對一/非並行語音轉換，以及基於神經網絡的語音文件檢索/摘要與問答系統。

在音樂方面，研究課題包括歌聲旋律提取和音樂影片的自動生成。最近的研究成果包括基於聲學與語音學的F0建模框架，應用於歌曲中人聲旋律提取及歌詞與歌曲自動對齊；基於情緒導向的虛擬歌曲預測和影音匹配框架的音樂影片自動生成技術。我們已經成功實作了一個完整的自動音樂影片生成系統，可以將使用者生成的長視頻編輯成音樂兼容的音樂影片。持續中的研究工作包括現有各種音樂檢索技術和系統的改良、翻唱歌曲識別、音樂會曲目自動生成、歌聲合成、語音轉歌聲和音樂結構分析/摘要。