科學報科學文摘探索

驚喜與危險的並存

字體大小：
更新日期：2022年2月18日
文章欄目：
文章標籤：

來源：BBC Future
撰文：克裏斯·巴拉紐克（Chris Baraniuk）
翻譯：任天
使用人工智能的算法正在嘗試以意想不到的技巧來解決問題，這讓它們的開發者感到驚訝。 但與此同時，這也引發了人們對如何控制人工智能的擔憂。 
穀歌公司的一群員工正茫然地盯著自己的電腦屏幕。 幾個月來，他們一直在完善一個算法，用來控制一個無人熱氣球從波多黎各一直飛到秘魯。 但還是有些地方不盡如人意，氣球在機器智能的控制下不斷偏離既定路線。 
Loon項目（Project Loon）是穀歌公司現在已經停止的一個項目，它原本的目標旨在通過氣球將互聯網接入偏遠地區。 作為該項目的負責人，塞爾瓦托·坎迪多無法解釋這個氣球的軌跡。 最後，他的同事們手動控制了系統，讓氣球回到了正軌。 
後來他們才意識到發生了什麼。 令人意想不到的是，氣球上的人工智能學會了重現人類在幾百年，甚至幾千年前發明的古老航海技術，例如「改變航向」，這指的是操縱船只迎風航行，然後再向外傾斜，從而在大致方向上以之字形前進。 
在不利的天氣條件下，自主飛行的氣球已經學會了完全靠自己來改變航向。 它們自發地完成了這一過程，讓所有人都感到震驚，尤其是參與這個項目的研究人員。 
在Loon項目中控制氣球飛行的人工智能學會了一種迎風航行的技術
「當第一個被允許完全執行這種技術的氣球創造了從波多黎各到秘魯的飛行時間記錄時，我們馬上意識到自己被打敗了，」坎迪多在一篇關於該項目的博客文章中寫道，「我從來沒有像這樣，同時感到自己既聰明又愚蠢。 」
富有創造力的人工智能
當人工智能在設備中被放任自流時，很可能就會發生這樣的事情。 與傳統的計算機程序不同，人工智能的設計目的就是探索和開發新的方法，以完成人類工程師沒有明確告訴它們的任務。 
然而，在學習如何完成這些任務的同時，人工智能有時會想出一種極富創造力的方法，甚至會讓一直使用這種系統的人大吃一驚。 這可能是一件好事，但同時也可能使人工智能控制的一切變得不可預測，甚至可能帶來危險。 例如，機器人和自動駕駛汽車最終可能做出將人類置於危險境地的決定。 
人工智能系統怎麼可能「智勝」它的人類主人呢？我們能否以某種方式約束機器智能，以確保不致某些不可預見的災難？
在人工智能研究界，有一個關於人工智能創造力的例子似乎被引用得最多。 真正讓人們對人工智能的能力感到興奮的時刻，是DeepMind的人工智能機器學習系統AlphaGo如何掌握圍棋這一古老的遊戲，然後擊敗了世界上最優秀的人類棋手之一。 DeepMind是一家創立於2010年的人工智能公司，在2014年被穀歌收購。 
隨著人工智能開始應用於現實世界，了解它們是否會做一些意想不到的事情是很重要的
事實證明，它們可以用一些以往從未有人用過——或者至少很多人不知道——的新策略或新技巧，來對付人類棋手。 
然而，即使是這樣一場單純的圍棋遊戲，也會引起人們不同的感受。 一方面，DeepMind自豪地描述了其系統AlphaGo的「創新」之處，並揭示了圍棋，這一人類已經玩了數千年的遊戲的新玩法。 另一方面，一些人質疑如此有創造性的人工智能有朝一日是否會對人類構成嚴重威脅。 
在AlphaGo取得曆史性勝利後，澳大利亞西悉尼大學的機器學習、電子學和神經科學研究者喬納森•塔普森寫道：「認為我們能夠預測或管理人工智能最壞的行為是很可笑的，我們實際上無法想象它們可能的行為。 」
我們需要記住的重要一點是，人工智能並不真正像人類那樣思考。 它們的神經網絡確實是受到了動物大腦的啟發，但更確切地說，它們是所謂的「探索設備」。 當它們試圖解決一個任務或問題時，並不會帶有很多（如果有的話）對更廣闊世界的先入之見。 它們只是嘗試——有時是數百萬次——去找到一個解決方案。 
我們人類有很多思想上的包袱，我們會考慮規則，人工智能系統甚至不理解規則，因此它們可以隨意地撥弄事物。 
在這種情況下，人工智能可以被描述為具有「學者症候群」的矽等量物。 所謂學者症候群，通常是指一個人有嚴重的精神障礙，但卻在某種藝術或學術上擁有非凡的能力，其天賦通常與記憶有關。 
不斷帶給我們驚奇
人工智能讓我們感到驚奇的方式之一，是它們能夠使用相同的基本系統來解決根本不同的問題。 最近，一款機器學習工具就被要求執行一項非常不同的功能：下國際象棋。 
該系統被稱為「GPT-2」，由非營利的人工智能研究組織OpenAI開發。 GPT-2利用數以百萬計的在線新聞文章和網頁信息進行訓練，可以根據句子中前面的單詞預測下一個單詞。 開發者肖恩·普萊瑟認為，國際象棋的走法可以用字母和數字的組合來表示，因此如果根據國際象棋比賽的記錄來訓練算法，這一工具就可以通過計算理想的走法序列來學習如何下棋。 
普萊瑟對GPT-2系統進行了240萬場國際象棋比賽的訓練。 「看到象棋引擎變成現實真是太酷了，」他說，「我當時根本不確定這能不能行得通。 」但GPT-2做到了。 盡管它的水平還比不上專門設計的國際象棋計算機，但已經能夠成功地完成艱苦的比賽。 
這個實驗表明GPT-2系統具有許多尚待探索的能力，堪稱一個具有國際象棋天賦的專家。 該軟件後來的一個版本讓網頁設計人員大為震驚，當時，一位開發人員對其進行了簡單的訓練，讓它寫出用於在網頁上顯示項目（如文本和按鈕）的代碼。 盡管只有一些簡單的描述，如「表示‘我愛你’的紅色文本和帶有‘ok’的按鈕」，但這個人工智能依然生成了適當的代碼。 很顯然，它已經掌握了網頁設計的基本要領，但所受的訓練卻少得驚人。 
長期以來，人工智能給人們留下的深刻印象主要來自電子遊戲領域。 在人工智能研究界，有無數例子揭示了算法在虛擬環境中所做到的事情有多麼令人驚訝。 研究者經常在諸如電子遊戲等空間中對算法進行測試和磨練，以了解它們到底有多強大。 
2019年，OpenAI因為一段視頻登上了新聞頭條。 視頻中，一個由機器學習控制的角色正在玩捉迷藏遊戲。 令研究人員驚訝的是，遊戲中的「尋找者」最終發現，它們可以跳到物品上方進行「沖浪」，從而進入「躲藏者」所在的圍欄。 換言之，「尋找者」學會了為了自己的利益而改變遊戲規則。 
反複試錯的策略會帶來各種有趣的行為，但並不總能帶來成功。 兩年前，DeepMind的研究員維多利亞·克拉科夫娜邀請她博客的讀者分享人工智能解決棘手問題的故事，但要求解決問題的方式是不可預測或不可接受的。 
她整理出了一長串很吸引人的例子。 其中有一個遊戲算法，在第1關結束時學會了自殺，以避免在第2關死亡，這就實現了在第2個關卡中不死的目標，只不過采用了一種特別令人印象深刻的方式。 另一個算法發現，它可以在遊戲中跳下懸崖，並將對手帶向毀滅；通過這種方式，人工智能得到了足夠的點數以獲得額外的生命，從而在無限循環中不斷重複這種自殺策略。 
紐約大學坦登工程學院的電子遊戲人工智能研究者朱利安·托格裏烏斯試圖解釋這其中發生的一切。 他表示，這些都是「獎勵分配」錯誤的典型例子。 當人工智能被要求完成某件事時，它可能會找到一些奇怪的、出乎意料的方法來實現目標，並最終證明這些方法是正確的。 人類很少采取這樣的策略，指導我們如何遊戲的方法和規則十分重要。 
研究人員發現，當人工智能系統在特殊條件下接受測試時，這種目標導向的偏見會暴露出來。 在最近的一項實驗中，被要求在銀行進行投資的遊戲人工智能角色會跑到虛擬銀行大廳附近的一個角落，等待獲得投資回報，這個算法已經學會了將跑到拐角處與獲得金錢回報聯系起來，盡管這種運動與得到多少回報之間並沒有實際的關系。 
這有點像人工智能在發展迷信，在得到了某種獎勵或懲罰之後，它們開始思考為什麼會得到這些。 
這是「強化學習」的陷阱之一。 所謂「強化學習」，是指人工智能最終會根據它在環境中遇到的情況設計出判斷錯誤的策略。 人工智能不知道自己為什麼會成功，它只能將自己的行動建立習得聯想的基礎上。 這有點像人類文化早期階段時，將祈禱儀式與天氣變化聯系起來的行為。 
一個有趣的例子是，鴿子也會出現這樣的行為。 1948年，一位美國心理學家發表了一篇論文，描述了一個不尋常的實驗：他將鴿子放在圍欄裏，間歇性地給予食物獎勵。 這些鴿子開始將食物與它們當時正在做的事情聯系起來，有時是拍打翅膀，有時是舞蹈般的動作。 然後，它們會重複這些行為，似乎期待著獎勵會隨之而來。 
鴿子可以學會將食物與某些行為聯系起來，而人工智能會表現出類似的耦聯行為
用新辦法解決老問題
測試的遊戲人工智能與心理學家所使用的活體動物之間有著巨大的差異，但其中起作用的似乎是相同的基本機制，即獎勵與特定行為錯誤地聯系在一起。 
人工智能研究者可能會對機器學習系統所選擇的路徑感到驚訝，但這並不意味著他們對機器學習系統感到敬畏。 DeepMind的深度學習研究科學家拉亞•哈德賽爾表示：「我從不覺得這些人工智能有自己的想法。 」
哈德賽爾對許多人工智能系統進行了試驗，發現它們能對她或她同事未曾預料的問題提出有趣和新穎的解決方案，這正是研究人員應該致力於增強人工智能的原因，因為這樣，它們就可以完成人類自己無法完成的事情。 
使用人工智能的產品，比如自動駕駛汽車，可以經過嚴格測試，以確保任何不可預測性都在一定的可接受範圍內。 在這一點上，只有時間才能證明所有銷售人工智能產品的公司是否都如此小心謹慎。 但與此同時，值得注意的是，人工智能表現出的意外行為絕不僅僅局限於研究環境，而是已經進入了商業產品領域。 
2020年，在德國柏林的一家工廠裏，由美國強化學習機器人技術公司Covariant開發的一款機器人手臂在物品經過傳送帶時，展現出了意想不到的分類方法。 盡管沒有專門的程序，但控制手臂的人工智能學會了瞄准透明包裝的物品中心，以確保其每次都能成功地將物品抓起來。 由於這些物品是透明的，在重疊時可能會混在一起，因此瞄准不精確意味著機器人可能無法抓起物品。 但人工智能學會了避免物體的重疊角，而是瞄准了最容易拾取的表面。 這真的讓人很吃驚。 
無獨有偶，研究團隊最近試驗了一款機器人手臂，可以通過形狀分類孔洞來選取不同的物品。 一開始機器人的手臂很笨拙，在人工智能的控制下，它通過不斷地拿起和放下物品進行學習；最終，機器人可以在物品進入正確位置時將其抓住，並將物品很容易地放入適當的孔洞，而不是試圖用鉗子擺弄它。 
所有這些都印證了OpenAI研究管理者傑夫·克倫的觀點，即人工智能的探索性是其未來成功的基礎。 近年來，克倫一直在與世界各地的同行合作，收集人工智能以出人意料的方式開發出問題解決方案的例子。 
克倫說：「隨著我們不斷擴展這些人工智能系統的規模，可以看到，它們正在做著一些富有創造性且令人印象深刻的事情，而不只是表現出學術上的好奇心。 」
如果人工智能系統能找到更好的方法來診斷疾病，或者向有需要的人群運送緊急物資，它們就可以挽救更多的生命。 克倫補充道，人工智能有能力找到解決老問題的新方法。 但他也認為，開發這類系統的人需要對其不可預測的本質保持開放和誠實，以幫助公眾了解人工智能的工作機制。 
畢竟，這是一把雙刃劍。 人工智能的承諾和威脅一直同時存在，它們接下來會想到什麼？這是耐人尋味的問題。

本文朗讀完畢，請繼續下一頁。喜歡、科學報 cn-n.net 的內容，請記得按讚、收藏及分享！

來源：BBC Future

撰文：克裏斯·巴拉紐克（Chris Baraniuk）

翻譯：任天

使用人工智能的算法正在嘗試以意想不到的技巧來解決問題，這讓它們的開發者感到驚訝。但與此同時，這也引發了人們對如何控制人工智能的擔憂。

穀歌公司的一群員工正茫然地盯著自己的電腦屏幕。幾個月來，他們一直在完善一個算法，用來控制一個無人熱氣球從波多黎各一直飛到秘魯。但還是有些地方不盡如人意，氣球在機器智能的控制下不斷偏離既定路線。

Loon項目（Project Loon）是穀歌公司現在已經停止的一個項目，它原本的目標旨在通過氣球將互聯網接入偏遠地區。作為該項目的負責人，塞爾瓦托·坎迪多無法解釋這個氣球的軌跡。最後，他的同事們手動控制了系統，讓氣球回到了正軌。

後來他們才意識到發生了什麼。令人意想不到的是，氣球上的人工智能學會了重現人類在幾百年，甚至幾千年前發明的古老航海技術，例如「改變航向」，這指的是操縱船只迎風航行，然後再向外傾斜，從而在大致方向上以之字形前進。

在不利的天氣條件下，自主飛行的氣球已經學會了完全靠自己來改變航向。它們自發地完成了這一過程，讓所有人都感到震驚，尤其是參與這個項目的研究人員。

在Loon項目中控制氣球飛行的人工智能學會了一種迎風航行的技術

「當第一個被允許完全執行這種技術的氣球創造了從波多黎各到秘魯的飛行時間記錄時，我們馬上意識到自己被打敗了，」坎迪多在一篇關於該項目的博客文章中寫道，「我從來沒有像這樣，同時感到自己既聰明又愚蠢。」

富有創造力的人工智能

當人工智能在設備中被放任自流時，很可能就會發生這樣的事情。與傳統的計算機程序不同，人工智能的設計目的就是探索和開發新的方法，以完成人類工程師沒有明確告訴它們的任務。

然而，在學習如何完成這些任務的同時，人工智能有時會想出一種極富創造力的方法，甚至會讓一直使用這種系統的人大吃一驚。這可能是一件好事，但同時也可能使人工智能控制的一切變得不可預測，甚至可能帶來危險。例如，機器人和自動駕駛汽車最終可能做出將人類置於危險境地的決定。

人工智能系統怎麼可能「智勝」它的人類主人呢？我們能否以某種方式約束機器智能，以確保不致某些不可預見的災難？

在人工智能研究界，有一個關於人工智能創造力的例子似乎被引用得最多。真正讓人們對人工智能的能力感到興奮的時刻，是DeepMind的人工智能機器學習系統AlphaGo如何掌握圍棋這一古老的遊戲，然後擊敗了世界上最優秀的人類棋手之一。DeepMind是一家創立於2010年的人工智能公司，在2014年被穀歌收購。

隨著人工智能開始應用於現實世界，了解它們是否會做一些意想不到的事情是很重要的

事實證明，它們可以用一些以往從未有人用過——或者至少很多人不知道——的新策略或新技巧，來對付人類棋手。

然而，即使是這樣一場單純的圍棋遊戲，也會引起人們不同的感受。一方面，DeepMind自豪地描述了其系統AlphaGo的「創新」之處，並揭示了圍棋，這一人類已經玩了數千年的遊戲的新玩法。另一方面，一些人質疑如此有創造性的人工智能有朝一日是否會對人類構成嚴重威脅。

在AlphaGo取得曆史性勝利後，澳大利亞西悉尼大學的機器學習、電子學和神經科學研究者喬納森•塔普森寫道：「認為我們能夠預測或管理人工智能最壞的行為是很可笑的，我們實際上無法想象它們可能的行為。」

我們需要記住的重要一點是，人工智能並不真正像人類那樣思考。它們的神經網絡確實是受到了動物大腦的啟發，但更確切地說，它們是所謂的「探索設備」。當它們試圖解決一個任務或問題時，並不會帶有很多（如果有的話）對更廣闊世界的先入之見。它們只是嘗試——有時是數百萬次——去找到一個解決方案。

我們人類有很多思想上的包袱，我們會考慮規則，人工智能系統甚至不理解規則，因此它們可以隨意地撥弄事物。

在這種情況下，人工智能可以被描述為具有「學者症候群」的矽等量物。所謂學者症候群，通常是指一個人有嚴重的精神障礙，但卻在某種藝術或學術上擁有非凡的能力，其天賦通常與記憶有關。

不斷帶給我們驚奇

人工智能讓我們感到驚奇的方式之一，是它們能夠使用相同的基本系統來解決根本不同的問題。最近，一款機器學習工具就被要求執行一項非常不同的功能：下國際象棋。

該系統被稱為「GPT-2」，由非營利的人工智能研究組織OpenAI開發。GPT-2利用數以百萬計的在線新聞文章和網頁信息進行訓練，可以根據句子中前面的單詞預測下一個單詞。開發者肖恩·普萊瑟認為，國際象棋的走法可以用字母和數字的組合來表示，因此如果根據國際象棋比賽的記錄來訓練算法，這一工具就可以通過計算理想的走法序列來學習如何下棋。

普萊瑟對GPT-2系統進行了240萬場國際象棋比賽的訓練。「看到象棋引擎變成現實真是太酷了，」他說，「我當時根本不確定這能不能行得通。」但GPT-2做到了。盡管它的水平還比不上專門設計的國際象棋計算機，但已經能夠成功地完成艱苦的比賽。

這個實驗表明GPT-2系統具有許多尚待探索的能力，堪稱一個具有國際象棋天賦的專家。該軟件後來的一個版本讓網頁設計人員大為震驚，當時，一位開發人員對其進行了簡單的訓練，讓它寫出用於在網頁上顯示項目（如文本和按鈕）的代碼。盡管只有一些簡單的描述，如「表示‘我愛你’的紅色文本和帶有‘ok’的按鈕」，但這個人工智能依然生成了適當的代碼。很顯然，它已經掌握了網頁設計的基本要領，但所受的訓練卻少得驚人。

長期以來，人工智能給人們留下的深刻印象主要來自電子遊戲領域。在人工智能研究界，有無數例子揭示了算法在虛擬環境中所做到的事情有多麼令人驚訝。研究者經常在諸如電子遊戲等空間中對算法進行測試和磨練，以了解它們到底有多強大。

2019年，OpenAI因為一段視頻登上了新聞頭條。視頻中，一個由機器學習控制的角色正在玩捉迷藏遊戲。令研究人員驚訝的是，遊戲中的「尋找者」最終發現，它們可以跳到物品上方進行「沖浪」，從而進入「躲藏者」所在的圍欄。換言之，「尋找者」學會了為了自己的利益而改變遊戲規則。

反複試錯的策略會帶來各種有趣的行為，但並不總能帶來成功。兩年前，DeepMind的研究員維多利亞·克拉科夫娜邀請她博客的讀者分享人工智能解決棘手問題的故事，但要求解決問題的方式是不可預測或不可接受的。

她整理出了一長串很吸引人的例子。其中有一個遊戲算法，在第1關結束時學會了自殺，以避免在第2關死亡，這就實現了在第2個關卡中不死的目標，只不過采用了一種特別令人印象深刻的方式。另一個算法發現，它可以在遊戲中跳下懸崖，並將對手帶向毀滅；通過這種方式，人工智能得到了足夠的點數以獲得額外的生命，從而在無限循環中不斷重複這種自殺策略。

紐約大學坦登工程學院的電子遊戲人工智能研究者朱利安·托格裏烏斯試圖解釋這其中發生的一切。他表示，這些都是「獎勵分配」錯誤的典型例子。當人工智能被要求完成某件事時，它可能會找到一些奇怪的、出乎意料的方法來實現目標，並最終證明這些方法是正確的。人類很少采取這樣的策略，指導我們如何遊戲的方法和規則十分重要。

研究人員發現，當人工智能系統在特殊條件下接受測試時，這種目標導向的偏見會暴露出來。在最近的一項實驗中，被要求在銀行進行投資的遊戲人工智能角色會跑到虛擬銀行大廳附近的一個角落，等待獲得投資回報，這個算法已經學會了將跑到拐角處與獲得金錢回報聯系起來，盡管這種運動與得到多少回報之間並沒有實際的關系。

這有點像人工智能在發展迷信，在得到了某種獎勵或懲罰之後，它們開始思考為什麼會得到這些。

這是「強化學習」的陷阱之一。所謂「強化學習」，是指人工智能最終會根據它在環境中遇到的情況設計出判斷錯誤的策略。人工智能不知道自己為什麼會成功，它只能將自己的行動建立習得聯想的基礎上。這有點像人類文化早期階段時，將祈禱儀式與天氣變化聯系起來的行為。

一個有趣的例子是，鴿子也會出現這樣的行為。1948年，一位美國心理學家發表了一篇論文，描述了一個不尋常的實驗：他將鴿子放在圍欄裏，間歇性地給予食物獎勵。這些鴿子開始將食物與它們當時正在做的事情聯系起來，有時是拍打翅膀，有時是舞蹈般的動作。然後，它們會重複這些行為，似乎期待著獎勵會隨之而來。

鴿子可以學會將食物與某些行為聯系起來，而人工智能會表現出類似的耦聯行為

用新辦法解決老問題

測試的遊戲人工智能與心理學家所使用的活體動物之間有著巨大的差異，但其中起作用的似乎是相同的基本機制，即獎勵與特定行為錯誤地聯系在一起。

人工智能研究者可能會對機器學習系統所選擇的路徑感到驚訝，但這並不意味著他們對機器學習系統感到敬畏。DeepMind的深度學習研究科學家拉亞•哈德賽爾表示：「我從不覺得這些人工智能有自己的想法。」

哈德賽爾對許多人工智能系統進行了試驗，發現它們能對她或她同事未曾預料的問題提出有趣和新穎的解決方案，這正是研究人員應該致力於增強人工智能的原因，因為這樣，它們就可以完成人類自己無法完成的事情。

使用人工智能的產品，比如自動駕駛汽車，可以經過嚴格測試，以確保任何不可預測性都在一定的可接受範圍內。在這一點上，只有時間才能證明所有銷售人工智能產品的公司是否都如此小心謹慎。但與此同時，值得注意的是，人工智能表現出的意外行為絕不僅僅局限於研究環境，而是已經進入了商業產品領域。

2020年，在德國柏林的一家工廠裏，由美國強化學習機器人技術公司Covariant開發的一款機器人手臂在物品經過傳送帶時，展現出了意想不到的分類方法。盡管沒有專門的程序，但控制手臂的人工智能學會了瞄准透明包裝的物品中心，以確保其每次都能成功地將物品抓起來。由於這些物品是透明的，在重疊時可能會混在一起，因此瞄准不精確意味著機器人可能無法抓起物品。但人工智能學會了避免物體的重疊角，而是瞄准了最容易拾取的表面。這真的讓人很吃驚。

無獨有偶，研究團隊最近試驗了一款機器人手臂，可以通過形狀分類孔洞來選取不同的物品。一開始機器人的手臂很笨拙，在人工智能的控制下，它通過不斷地拿起和放下物品進行學習；最終，機器人可以在物品進入正確位置時將其抓住，並將物品很容易地放入適當的孔洞，而不是試圖用鉗子擺弄它。

所有這些都印證了OpenAI研究管理者傑夫·克倫的觀點，即人工智能的探索性是其未來成功的基礎。近年來，克倫一直在與世界各地的同行合作，收集人工智能以出人意料的方式開發出問題解決方案的例子。

克倫說：「隨著我們不斷擴展這些人工智能系統的規模，可以看到，它們正在做著一些富有創造性且令人印象深刻的事情，而不只是表現出學術上的好奇心。」

如果人工智能系統能找到更好的方法來診斷疾病，或者向有需要的人群運送緊急物資，它們就可以挽救更多的生命。克倫補充道，人工智能有能力找到解決老問題的新方法。但他也認為，開發這類系統的人需要對其不可預測的本質保持開放和誠實，以幫助公眾了解人工智能的工作機制。

畢竟，這是一把雙刃劍。人工智能的承諾和威脅一直同時存在，它們接下來會想到什麼？這是耐人尋味的問題。