中央研究院 資訊科學研究所

研究

友善列印

列印可使用瀏覽器提供的(Ctrl+P)功能

2012 重要研究成果

:::

適用於音樂情緒辨識及檢索之音訊情緒高斯模型

Proceedings of ACM Multimedia 2012, 89-98

王如江楊奕軒王新民、 鄭士康

作者所屬單位
  • 中央研究院資訊科學研究所

我們提出一套新的演算法,以聲學視覺情緒高斯模型來自動分析及辨認多媒體的情緒內涵;在聽覺方面是透過音色、音調與節奏等特徵,而視覺方面則透過色彩、亮度與畫面跳動頻率等特徵,來分別辨析影片及音樂的情緒內涵,進而以情緒為根基進行兩者的自動配對。這套系統,亦可支援使用者以音樂搜尋具有相關情緒的影片。這項技術,可應用於個人影片的聲音後製,或是諸如YouTube等社群影音分享網站上;也可自動為音樂錄影帶製作人推薦適合搭配的影片,讓使用者輕鬆完成影音俱佳的多媒體作品,具有很高的娛樂以及應用性。此研究參與美國電腦協會國際多媒體年度學術研討會(ACM Multimedia 2012)之「電腦多媒體應用頂尖挑戰」(Multimedia Grand Challenge),與來自中國大陸、新加坡、美國、法國、荷蘭及香港等國的17支優秀的決賽團隊競逐,終脫穎而出榮獲首獎。

適用於音樂情緒辨識及檢索之音訊情緒高斯模型
(左)使用VA情感查詢的基於內容的音樂檢索系統;(右上)利用聲學情緒高斯模型從音樂聲學特徵生成情感分佈的示意圖;(右下)利用聲學視覺情緒高斯模型去匹配音樂及影片的示意圖

 檢視全文

線上學習、賽局理論與複雜度理論

Journal of Machine Learning Research - Proceedings Track 23 (COLT), 2012, 6.1-6.20

蔣兆凱、 Tianbao Yang、 李佳蓉、 Mehrdad Mahdavi、 呂及人、 Rong Jin、 Shenghuo Zhu

作者所屬單位
  • 中央研究院資訊科學研究所

在日常生活中,有許多情形需要我們在一個未知且變化的環境中不斷得作決定,例如買賣股票、預測天氣、通勤上班、或是參與某些競賽等。這些情境可以被抽象化成所謂的線上優化問題。這個問題由許多回合所組成,而參與的玩家在每一回合中,必須選取一個行動,接著得到這個行動所帶來的損失或者獲益。在這篇論文中,我們考慮一個自然的狀況:假設相鄰兩回合中計算損益的函數差異很小,這可以用來模擬逐漸變化的環境。對於這樣的問題,我們提出演算法,並證明我們的方法比起先前的其他結果都有更好的表現。

線上學習、賽局理論與複雜度理論
(左)應用︰通勤上班;(右)演算法

 檢視全文

具隱私保護之SIFT於加密影像特徵擷取

IEEE Transactions on Image Processing 2012, 21(11), 4593-4607

許朝詠、 呂俊賢、 貝蘇章

作者所屬單位
  • 中央研究院資訊科學研究所

隱私保護在多媒體領域仍是相當新穎的問題。在一個雲端計算環境裡, server運算功能強大且資源豐富,能夠完成所給定的工作;可以預見在此環境中,具隱私保護的多媒體應用,一方面想藉由雲端環境完成所需計算又不可洩漏資料給server等第三者,已是未來趨勢。有鑑於scale-invariant feature transform(SIFT) 已廣泛使用於電腦視覺與識別等領域,我們首先研究具隱私保護功能之 SIFT(PPSIFT)技術使其能在加密數位影像擷取特徵點,如下圖所示。由於所有 SIFT之運算皆要在加密域完成,我們提出基於homomorphic encryption實現 PPSIFT技術。我們以基於discrete logarithm problem與RSA來證明PPSIFT能夠抗 ciphertext only attack與known plaintext attack。

SIFT 特徵偵測
(左一) 與 (右二) 明文裡的Scale-Invariant Feature Transform (SIFT) 特徵偵測;(左二) 與 (右一) 密文裡的SIFT 特徵偵測

 檢視全文