科學報科學文摘探索

明年，我要用AI給全村寫對聯

字體大小：
更新日期：2022年3月01日
文章欄目：
文章標籤：

春節接近尾聲，你是否還沉浸在年味裏？
到臘月二十九、三十，家家戶戶貼上了 紅紅的春聯，春節就正式拉開了序幕。 
春聯也稱為‘對聯’、‘門對’、‘楹聯’，是漢語所獨有的一種藝術形式，有著悠久的曆史。 2005 年，中國國務院把楹聯習俗，列為第一批國家非物質文化遺產名錄。 
對聯對聯，講究的就是‘成對’，要對仗工整，平仄協調。 不過現代人的對對聯技能，已經遠不如古代的文人墨客，甚至有時候可能連上下聯都傻傻分不清楚。 而聰明的 AI 已經學會自己寫對聯了。 
　　70 萬條對聯數據
　　教會 AI 對對子
在現有公開的對聯數據集中，以馮重樸_梨味齋散葉_的博客所發布的 couplet-dataset 數據最為龐大、使用也最為廣泛。

前兩張分別為訓練集的上聯和下聯，後兩張分別為測試集的上聯和下聯
這份數據集共包含 70 餘萬條對聯數據，按字切分。 
數據集分為訓練集、測試集以及詞匯表。 
其中，如上圖節選內容所示，訓練集分輸入、輸出兩部分，分別為對聯的上聯與下聯，按次序一一對應，測試集同理。 
數據集詳細信息如下：
couplet-dataset 
對聯數據集
數據來源：馮重樸_梨味齋散葉
包含數量：70 萬條對聯 
數據格式：.txt
數據大小：59.7 MB（壓縮文件 27.4 MB）
地址：https：//hyper.ai/datasets/14547
這個數據集已經成為對聯數據中的‘團寵’，被眾多 AI 工程師、團隊用來作為寫對聯模型的訓練數據集，華為的樂府春聯亦是用該數據集訓練而來，可通過以上地址下載該數據集。 不過有一個小小的遺憾是，這一數據集中沒有橫批，還需要各位自己發揮。 
　　AI：沒有我對不出來的對聯
一位名叫王斌的程序員，爬取和使用該對聯數據集，用 GTX 1080 Ti 訓練了 4 天，得到了一個自動對對聯模型。 效果如何？我們來測試一下。

測試地址：https：//ai.binwang.me/couplet/
這位程序員還將該項目在 GitHub 開源：
https：//github.com/wb14123/couplet-dataset
另外一位工程師，則基於 GPT2-Chinese 和該對聯數據集，訓練了一份對聯領域的 GPT-2 模型，可自動生成對聯。 
它將其 server 版本對接到微信公眾號 AINLP 後台，可以直接在對話框進行測試。 
輸入關鍵詞‘寫對聯’，可觸發對聯自動生成，例如輸入‘寫對聯金牛’，對聯模型會基於‘金牛’進行自動續寫，給出以‘金牛’開頭的 3 個對聯：

輸入‘對對聯 + 一組上聯’，可得到三組對聯，比如：

目前看來，對於一些經典對聯，AI 能做到對仗比較工整，且想象力豐富，對於同一上聯，可對出多個不同下聯；而對於一些不常在對聯中出現的字詞，AI 表現有些隨意牽強。 當然，讓 AI 對‘人工智能’什麼的，也的確是有些為難人家了。 
華為團隊開發的 AI 對聯，也是以 Couplet-dataset 對聯數據集作為訓練數據。 該模型可以根據給定主題，生成對聯。 以下分別是輸入‘新春快樂’、‘平安健康’、‘一夜暴富’主題的生成結果，可滑動查看：

明年，你要不要也訓練一個自己的 AI 寫春聯模型，為家人寫副對聯呢？

本文朗讀完畢，請繼續下一頁。喜歡、科學報 cn-n.net 的內容，請記得按讚、收藏及分享！

春節接近尾聲，你是否還沉浸在年味裏？

到臘月二十九、三十，家家戶戶貼上了紅紅的春聯，春節就正式拉開了序幕。

春聯也稱為‘對聯’、‘門對’、‘楹聯’，是漢語所獨有的一種藝術形式，有著悠久的曆史。2005 年，中國國務院把楹聯習俗，列為第一批國家非物質文化遺產名錄。

對聯對聯，講究的就是‘成對’，要對仗工整，平仄協調。不過現代人的對對聯技能，已經遠不如古代的文人墨客，甚至有時候可能連上下聯都傻傻分不清楚。而聰明的 AI 已經學會自己寫對聯了。

　　70 萬條對聯數據

　　教會 AI 對對子

在現有公開的對聯數據集中，以馮重樸_梨味齋散葉_的博客所發布的 couplet-dataset 數據最為龐大、使用也最為廣泛。