收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

科學報 科學文摘 探索

明年,我要用AI給全村寫對聯


字體大小:
更新日期:2022301
文章欄目:
文章標籤:         
 

春節接近尾聲,你是否還沉浸在年味裏?

到臘月二十九、三十,家家戶戶貼上了 紅紅的春聯,春節就正式拉開了序幕。

春聯也稱為‘對聯’、‘門對’、‘楹聯’,是漢語所獨有的一種藝術形式,有著悠久的曆史。2005 年,中國國務院把楹聯習俗,列為第一批國家非物質文化遺產名錄。

對聯對聯,講究的就是‘成對’,要對仗工整,平仄協調。不過現代人的對對聯技能,已經遠不如古代的文人墨客,甚至有時候可能連上下聯都傻傻分不清楚。而聰明的 AI 已經學會自己寫對聯了。

  70 萬條對聯數據

  教會 AI 對對子

在現有公開的對聯數據集中,以馮重樸_梨味齋散葉_的博客所發布的 couplet-dataset 數據最為龐大、使用也最為廣泛。

前兩張分別為訓練集的上聯和下聯,後兩張分別為測試集的上聯和下聯

amocity
amocity

  


這份數據集共包含 70 餘萬條對聯數據,按字切分。

數據集分為訓練集、測試集以及詞匯表。

其中,如上圖節選內容所示,訓練集分輸入、輸出兩部分,分別為對聯的上聯與下聯,按次序一一對應,測試集同理。

數據集詳細信息如下:

couplet-dataset 

對聯數據集

數據來源:馮重樸_梨味齋散葉

包含數量:70 萬條對聯 

數據格式:.txt

數據大小:59.7 MB(壓縮文件 27.4 MB)

amocity
amocity

  


地址:https://hyper.ai/datasets/14547

這個數據集已經成為對聯數據中的‘團寵’,被眾多 AI 工程師、團隊用來作為寫對聯模型的訓練數據集,華為的樂府春聯亦是用該數據集訓練而來,可通過以上地址下載該數據集。不過有一個小小的遺憾是,這一數據集中沒有橫批,還需要各位自己發揮。

  AI:沒有我對不出來的對聯

一位名叫王斌的程序員,爬取和使用該對聯數據集,用 GTX 1080 Ti 訓練了 4 天,得到了一個自動對對聯模型。效果如何?我們來測試一下。

測試地址:https://ai.binwang.me/couplet/

這位程序員還將該項目在 GitHub 開源:

https://github.com/wb14123/couplet-dataset

另外一位工程師,則基於 GPT2-Chinese 和該對聯數據集,訓練了一份對聯領域的 GPT-2 模型,可自動生成對聯。

amocity
amocity

  


它將其 server 版本對接到微信公眾號 AINLP 後台,可以直接在對話框進行測試。

輸入關鍵詞‘寫對聯’,可觸發對聯自動生成,例如輸入‘寫對聯金牛’,對聯模型會基於‘金牛’進行自動續寫,給出以‘金牛’開頭的 3 個對聯:

輸入‘對對聯 + 一組上聯’,可得到三組對聯,比如:

目前看來,對於一些經典對聯,AI 能做到對仗比較工整,且想象力豐富,對於同一上聯,可對出多個不同下聯;而對於一些不常在對聯中出現的字詞,AI 表現有些隨意牽強。當然,讓 AI 對‘人工智能’什麼的,也的確是有些為難人家了。

華為團隊開發的 AI 對聯,也是以 Couplet-dataset 對聯數據集作為訓練數據。該模型可以根據給定主題,生成對聯。以下分別是輸入‘新春快樂’、‘平安健康’、‘一夜暴富’主題的生成結果,可滑動查看:

明年,你要不要也訓練一個自己的 AI 寫春聯模型,為家人寫副對聯呢?

延伸閱讀
撩世界