適用於音樂情緒辨識及檢索之音訊情緒高斯模型
Proceedings of ACM Multimedia 2012, 89-98
王如江、 楊奕軒、 王新民、 鄭士康
- 中央研究院資訊科學研究所
我們提出一套新的演算法,以聲學視覺情緒高斯模型來自動分析及辨認多媒體的情緒內涵;在聽覺方面是透過音色、音調與節奏等特徵,而視覺方面則透過色彩、亮度與畫面跳動頻率等特徵,來分別辨析影片及音樂的情緒內涵,進而以情緒為根基進行兩者的自動配對。這套系統,亦可支援使用者以音樂搜尋具有相關情緒的影片。這項技術,可應用於個人影片的聲音後製,或是諸如YouTube等社群影音分享網站上;也可自動為音樂錄影帶製作人推薦適合搭配的影片,讓使用者輕鬆完成影音俱佳的多媒體作品,具有很高的娛樂以及應用性。此研究參與美國電腦協會國際多媒體年度學術研討會(ACM Multimedia 2012)之「電腦多媒體應用頂尖挑戰」(Multimedia Grand Challenge),與來自中國大陸、新加坡、美國、法國、荷蘭及香港等國的17支優秀的決賽團隊競逐,終脫穎而出榮獲首獎。

線上學習、賽局理論與複雜度理論
Journal of Machine Learning Research - Proceedings Track 23 (COLT), 2012, 6.1-6.20
蔣兆凱、 Tianbao Yang、 李佳蓉、 Mehrdad Mahdavi、 呂及人、 Rong Jin、 Shenghuo Zhu
- 中央研究院資訊科學研究所
在日常生活中,有許多情形需要我們在一個未知且變化的環境中不斷得作決定,例如買賣股票、預測天氣、通勤上班、或是參與某些競賽等。這些情境可以被抽象化成所謂的線上優化問題。這個問題由許多回合所組成,而參與的玩家在每一回合中,必須選取一個行動,接著得到這個行動所帶來的損失或者獲益。在這篇論文中,我們考慮一個自然的狀況:假設相鄰兩回合中計算損益的函數差異很小,這可以用來模擬逐漸變化的環境。對於這樣的問題,我們提出演算法,並證明我們的方法比起先前的其他結果都有更好的表現。

具隱私保護之SIFT於加密影像特徵擷取
IEEE Transactions on Image Processing 2012, 21(11), 4593-4607
許朝詠、 呂俊賢、 貝蘇章
- 中央研究院資訊科學研究所
隱私保護在多媒體領域仍是相當新穎的問題。在一個雲端計算環境裡, server運算功能強大且資源豐富,能夠完成所給定的工作;可以預見在此環境中,具隱私保護的多媒體應用,一方面想藉由雲端環境完成所需計算又不可洩漏資料給server等第三者,已是未來趨勢。有鑑於scale-invariant feature transform(SIFT) 已廣泛使用於電腦視覺與識別等領域,我們首先研究具隱私保護功能之 SIFT(PPSIFT)技術使其能在加密數位影像擷取特徵點,如下圖所示。由於所有 SIFT之運算皆要在加密域完成,我們提出基於homomorphic encryption實現 PPSIFT技術。我們以基於discrete logarithm problem與RSA來證明PPSIFT能夠抗 ciphertext only attack與known plaintext attack。
