適用於多回合多模態對話的共情感知長期工作記憶機制

計畫成員 : 黃瀚萱、古倫維、李政德

為了建立智慧代理人與人類之間深度的合作關係，其中一個關鍵面向在於，智慧代理人須能理解人們的情感、同理他們的憂慮，並且回應他們的心理需求。雖然近年來大型語言模型取得了顯著進展，但機器仍然不易洞悉人類的深層關切，並提供適當回應以滿足他們的心理需求。本研究計畫擬在更現實的場景中，開發共情反應建模，促使智慧代理人在多回合、長時間、多模態互動過程中，識別人們的情感並作出相應回應。

為了實現這一目標，多模態長期共情分析在促進富有意義而且更順暢的溝通中，扮演關鍵性的角色。如圖一所示，我們所設計的框架使智慧代理人具備多模態感知能力，以收集來自直接與代理互動的用戶以及隨著時間的推移從世界知識和社交媒體獲取的外部資訊。此外，智慧代理人將具備長期工作記憶，以持續追蹤外部資訊的共情轉換。最重要的是，將邏輯推理機制整合到工作記憶中，以確保多回合往來下，所有內部資訊和外部知識在邏輯上的一致性。最後，回應生成模組將根據當前狀態，產生適當之回應。

本計畫的研究項目可以總結如下：

現有的共情分析研究主要集中在單模態場景。從共情回應的角度處理文字、影像、社群網路之間的資訊互動，需要一個新穎的框架，利用大型語言模型、圖像編碼器和圖神經網絡。在本項目中，我們將提出一種針對各種多模態資料類型的通用表徵編碼器。此外，我們將提出編碼器專屬的自監督任務進行預訓練，使表示具有共情感知能力。
社群網路是反應社會中人際關係的重要媒介。個人或社會的社群網路隨時間的變化，顯現人際關係的變化，從而觸發共情效應的需求。在本項目中，我們將探索時序圖網路以捕捉社群網路的動態，並提取潛在的共情因素。
為了在多回合、長期的人機互動過程中，保持邏輯一致性，需要對代理的工作記憶進行精密操作。工作記憶可以與神經網路模型緊密整合，也可以作為外部資訊檢索系統，獨立運行。此外，工作記憶中的內容表徵可以是符號式或分布式。分布式表示將語意資訊轉換為密集向量，而符號表示則利於邏輯推理。本計畫將提出一種利用兩種表徵策略的長期工作記憶操作框架。
為確保工作記憶邏輯的一致性，世界知識和日常常識將扮演關鍵作用。即使是最新的大型語言模型，有時亦可能產生不準確的結果，甚至錯誤資訊。當智慧代理人處理某一個實體時，它可以通過查詢世界知識庫（如Wikidata）獲得有關該實體的屬性。除此之外，常識知識庫（如Atomic）則提供了有關事件的原因及其影響的知識。這兩類的知識，都有助於防止智慧代理人做出不符合邏輯的推論。幫助大型語言模型中利用外部知識，本身也是一個熱門的研究主題。
作為對這一複雜問題的前瞻研究，我們將建立資料集和評估指標。為了將資料集將作為公開研究資源，我們擬選用無倫理問題的材料進行構建。然而，蒐集原始材料（如人與人或人與機器人互動的生活日誌），在考慮隱私問題時具有挑戰性。此外，在多回合場景中，如何自動化評估系統效能，也是我們的研究目標。

本計畫試圖解決自然語言處理中一個基礎的開放性問題，其成果可廣泛應用於各種研究領域，包括但不限於對話系統、議論探勘、情感分析、生活記錄探勘、自動摘要等。藉由對文本背後的情感和渴望的洞悉，我們的方法促使更深入的情緒理解，推動自然語言處理的發展。對於最先進的大型語言模型來說，涉及長篇輸入或長期資料的任務仍然具有相當的挑戰性。我們方法所探索的多回合、長期邏輯一致性，將使人工智慧系統在這類任務中能夠更有效地執行。