2012 重要研究成果

適用於音樂情緒辨識及檢索之音訊情緒高斯模型

Proceedings of ACM Multimedia 2012, 89-98

王如江、楊奕軒、王新民、鄭士康

作者所屬單位

中央研究院資訊科學研究所

我們提出一套新的演算法，以聲學視覺情緒高斯模型來自動分析及辨認多媒體的情緒內涵；在聽覺方面是透過音色、音調與節奏等特徵，而視覺方面則透過色彩、亮度與畫面跳動頻率等特徵，來分別辨析影片及音樂的情緒內涵，進而以情緒為根基進行兩者的自動配對。這套系統，亦可支援使用者以音樂搜尋具有相關情緒的影片。這項技術，可應用於個人影片的聲音後製，或是諸如YouTube等社群影音分享網站上；也可自動為音樂錄影帶製作人推薦適合搭配的影片，讓使用者輕鬆完成影音俱佳的多媒體作品，具有很高的娛樂以及應用性。此研究參與美國電腦協會國際多媒體年度學術研討會（ACM Multimedia 2012）之「電腦多媒體應用頂尖挑戰」（Multimedia Grand Challenge），與來自中國大陸、新加坡、美國、法國、荷蘭及香港等國的17支優秀的決賽團隊競逐，終脫穎而出榮獲首獎。

適用於音樂情緒辨識及檢索之音訊情緒高斯模型 — (左)使用VA情感查詢的基於內容的音樂檢索系統；(右上)利用聲學情緒高斯模型從音樂聲學特徵生成情感分佈的示意圖；(右下)利用聲學視覺情緒高斯模型去匹配音樂及影片的示意圖

檢視全文

線上學習、賽局理論與複雜度理論

Journal of Machine Learning Research - Proceedings Track 23 (COLT), 2012, 6.1-6.20

蔣兆凱、 Tianbao Yang、李佳蓉、 Mehrdad Mahdavi、呂及人、 Rong Jin、 Shenghuo Zhu

作者所屬單位

中央研究院資訊科學研究所

在日常生活中，有許多情形需要我們在一個未知且變化的環境中不斷得作決定，例如買賣股票、預測天氣、通勤上班、或是參與某些競賽等。這些情境可以被抽象化成所謂的線上優化問題。這個問題由許多回合所組成，而參與的玩家在每一回合中，必須選取一個行動，接著得到這個行動所帶來的損失或者獲益。在這篇論文中，我們考慮一個自然的狀況：假設相鄰兩回合中計算損益的函數差異很小，這可以用來模擬逐漸變化的環境。對於這樣的問題，我們提出演算法，並證明我們的方法比起先前的其他結果都有更好的表現。

檢視全文

具隱私保護之SIFT於加密影像特徵擷取

IEEE Transactions on Image Processing 2012, 21(11), 4593-4607

許朝詠、呂俊賢、貝蘇章

作者所屬單位

中央研究院資訊科學研究所

隱私保護在多媒體領域仍是相當新穎的問題。在一個雲端計算環境裡， server運算功能強大且資源豐富，能夠完成所給定的工作;可以預見在此環境中，具隱私保護的多媒體應用，一方面想藉由雲端環境完成所需計算又不可洩漏資料給server等第三者，已是未來趨勢。有鑑於scale-invariant feature transform（SIFT）已廣泛使用於電腦視覺與識別等領域，我們首先研究具隱私保護功能之 SIFT（PPSIFT）技術使其能在加密數位影像擷取特徵點，如下圖所示。由於所有 SIFT之運算皆要在加密域完成，我們提出基於homomorphic encryption實現 PPSIFT技術。我們以基於discrete logarithm problem與RSA來證明PPSIFT能夠抗 ciphertext only attack與known plaintext attack。

(左一) 與 (右二) 明文裡的Scale-Invariant Feature Transform (SIFT) 特徵偵測；(左二) 與 (右一) 密文裡的SIFT 特徵偵測

檢視全文