論文摘要
根據圖像自動生成自然語言的技術引起了廣泛關注。本文中,我們更進一步,研究如何從圖像生成詩歌語言,進行自動的詩歌創作。這一工作涉及多項挑戰,包括髮現圖像中的詩歌線索(例如,綠色中蘊含的希望),以及生成詩歌——既滿足於圖像的相關性,又滿足語言層面上的詩意。
爲解決上述問題,我們通過策略梯度將詩歌生成工作劃分成了兩個相關的多對抗訓練子任務,從而保證跨模態相關性和詩歌語言風格。爲了從圖像中提煉詩歌線索,我們提出學習深度耦合的視覺詩意嵌入,在其中,機器可以連帶地學習圖像中物品、情感和場景的詩意呈現。本文還介紹了兩種指導詩歌生成的判別網絡,包括多模態判別器和詩歌風格判別器。
爲了便於研究,我們通過人工註解者收集了兩個詩歌數據集,它們有如下性質:1)第一個是人類註解的「圖像-詩歌」對數據集(共 8,292 對),以及 2)迄今爲止最大的公共英文詩歌語料數據集(共有 92,265 首不同的詩歌)。
我們應用自己的模型生成了八千張圖像,進行了大規模的實驗,其中一千五百張圖像是隨機選取來進行評估的。客觀評估和主管評估均顯示,該方法相對於目前最先進的圖像生成詩歌方法,表現優異。我們請 500 名人類受試者來進行了圖靈測試,其中 30 名評估者是詩歌方面的專業人士,測試結果證明了我們方法的有效性。
論文貢獻
我們提出以自動方式從圖像生成詩歌(英文自由詩)。就我們所知,這是首個嘗試在整體框架中研究圖像生成英文自有詩歌問題的努力,它使機器在認知工作中能夠具備接近人類的能力。
我們將深度耦合的視覺詩意嵌入模型與基於 RNN 的聯合學習生成器結合,其中兩個判別器通過多對抗訓練,爲跨模態相關性和詩意提供獎勵。
我們收集了首個人類註解的圖像-詩歌對數據集,以及最大的公共詩歌語料數據集。通過應用自動和人工評價標準(包括對 500 多位人類受試者進行的圖靈測試),大量實驗證明,相對於幾個基線方法,我們的方法更爲有效。爲了更好地促進圖像生成詩歌的研究,我們將在不遠的將來公佈這些數據集。
論文模型 & 效果
▲ 圖1. 示例-人類對相同圖像寫出的描述和詩歌。我們可以看到,這兩種形式中相同顏色的用詞有着明顯差異。相對於描述圖像中的事實,詩歌更傾向於捕捉圖像中物體、場景和感情更深層次的含義和是個象徵(例如,騎士與獵鷹,獵和發與進食,以及待與站)。
▲ 圖2. 使用多對抗訓練進行詩歌生成的架構。我們首先使用人類註解配對的圖像-詩歌數據集(多模態詩集)中的圖像-詩歌對 (a) 來訓練深度耦合的視覺詩意嵌入模型 (e)。詞性分析器(斯坦福大學 NLP 工具)從詩歌中提取詩歌象徵(例如物品、場景和情感),圖像特徵 (b) 即爲使用提取的這些象徵對 CNN 進行微調後取得的詩歌多 CNN 特徵。詩歌的語句特徵 (d) 是從受到最大公共詩歌語料庫(單模態詩集)訓練的 skip-thought 模型 (c) 中提取得到的。基於 RNN 的語句生成器 (f) 作爲智能體得到訓練,兩種判別器(評判根據給定圖像生成的詩歌的多模態 (g) 和詩歌風格 (h) )爲策略梯度 (i) 提供獎勵。詞性分析器從是各種提取詞性詞語。
▲ 圖3. 兩個數據集中的示例:單模態詩集和多模態詩集
▲ 表1. 三個數據集的詳細信息。前兩個數據集由我們自己收集,第三個通過VPE擴展而得
▲ 圖4. 使用六種方法根據一幅圖像生成詩歌的示例
▲ 表2. 人類創作的三種類型詩歌與圖像相關性的平均得分,評分範圍0-10分(0分-不相關,10分-相關)。單向方差分析顯示,這些詩歌的評價具有統計學意義(F(2, 9)=130.58, p<1e-10)。
▲ 圖5. 通過我們12P-GAN方法生成詩歌的示例。
▲ 表3. 自動評價。請注意,BLEU得分是比較人類註解的真實詩歌計算出的分數(一首詩歌對應一幅圖像)。總分是三種標準歸一後的平均值計算得出的。所有得分都是百分比(%)。
▲ 表4. 六種方法在四個標準下的人類評價結果:相關性(Rel)、連貫性(Col)、想象力(Imag)和總分。所有標準的評分範圍都是0-10分(0-差,10-優)。
▲ 表5. 使用詩歌搭配圖像/不搭配圖像、對ATM用戶和專家用戶進行的圖靈測試的準確性。