春節接近尾聲,你是否還沉浸在年味裏?
到臘月二十九、三十,家家戶戶貼上了 紅紅的春聯,春節就正式拉開了序幕。
春聯也稱為‘對聯’、‘門對’、‘楹聯’,是漢語所獨有的一種藝術形式,有著悠久的曆史。2005 年,中國國務院把楹聯習俗,列為第一批國家非物質文化遺產名錄。
對聯對聯,講究的就是‘成對’,要對仗工整,平仄協調。不過現代人的對對聯技能,已經遠不如古代的文人墨客,甚至有時候可能連上下聯都傻傻分不清楚。而聰明的 AI 已經學會自己寫對聯了。
70 萬條對聯數據
教會 AI 對對子
在現有公開的對聯數據集中,以馮重樸_梨味齋散葉_的博客所發布的 couplet-dataset 數據最為龐大、使用也最為廣泛。
前兩張分別為訓練集的上聯和下聯,後兩張分別為測試集的上聯和下聯
這份數據集共包含 70 餘萬條對聯數據,按字切分。
數據集分為訓練集、測試集以及詞匯表。
其中,如上圖節選內容所示,訓練集分輸入、輸出兩部分,分別為對聯的上聯與下聯,按次序一一對應,測試集同理。
數據集詳細信息如下:
couplet-dataset
對聯數據集
數據來源:馮重樸_梨味齋散葉
包含數量:70 萬條對聯
數據格式:.txt
數據大小:59.7 MB(壓縮文件 27.4 MB)
地址:https://hyper.ai/datasets/14547
這個數據集已經成為對聯數據中的‘團寵’,被眾多 AI 工程師、團隊用來作為寫對聯模型的訓練數據集,華為的樂府春聯亦是用該數據集訓練而來,可通過以上地址下載該數據集。不過有一個小小的遺憾是,這一數據集中沒有橫批,還需要各位自己發揮。
AI:沒有我對不出來的對聯
一位名叫王斌的程序員,爬取和使用該對聯數據集,用 GTX 1080 Ti 訓練了 4 天,得到了一個自動對對聯模型。效果如何?我們來測試一下。
測試地址:https://ai.binwang.me/couplet/
這位程序員還將該項目在 GitHub 開源:
https://github.com/wb14123/couplet-dataset
另外一位工程師,則基於 GPT2-Chinese 和該對聯數據集,訓練了一份對聯領域的 GPT-2 模型,可自動生成對聯。
它將其 server 版本對接到微信公眾號 AINLP 後台,可以直接在對話框進行測試。
輸入關鍵詞‘寫對聯’,可觸發對聯自動生成,例如輸入‘寫對聯金牛’,對聯模型會基於‘金牛’進行自動續寫,給出以‘金牛’開頭的 3 個對聯:
輸入‘對對聯 + 一組上聯’,可得到三組對聯,比如:
目前看來,對於一些經典對聯,AI 能做到對仗比較工整,且想象力豐富,對於同一上聯,可對出多個不同下聯;而對於一些不常在對聯中出現的字詞,AI 表現有些隨意牽強。當然,讓 AI 對‘人工智能’什麼的,也的確是有些為難人家了。
華為團隊開發的 AI 對聯,也是以 Couplet-dataset 對聯數據集作為訓練數據。該模型可以根據給定主題,生成對聯。以下分別是輸入‘新春快樂’、‘平安健康’、‘一夜暴富’主題的生成結果,可滑動查看:
明年,你要不要也訓練一個自己的 AI 寫春聯模型,為家人寫副對聯呢?