朗讀無心插柳：蘇聯數學家柯爾莫哥洛夫與神經網路的新生_理論_研究_工作第無心插柳：蘇聯數學家柯爾莫哥洛夫與神經網路的新生_理論_研究

蘇聯數學家柯爾莫哥洛夫（Andrey N. Kolmogorov，1903-1987）。 圖源：https://wolffund.org.il/
導讀：
大模型向計算理論提出了新問題，而計算理論也可幫助大模型揭示第一性原理，從而找到邊界和方向。 例如，蘇聯數學家柯爾莫哥洛夫和學生阿諾德在20世紀50年代完成的KA疊加定理。 
尼克 | 撰文
陳曉雪 | 編輯
今年五一假期，麻省理工學院物理學家Max Tegmark和其博士生劉子鳴等人在arxiv上掛出的一篇關於機器學習的文章引發關注。 他們提出了一種叫做KAN（Kolmogorov-Arnold Network）的新框架，稱其在準確性和可解釋性方面的表現均優於多層感知器（MLP）。 
今天，我們就來談談柯爾莫哥洛夫-阿諾德疊加定理的源起和發展。 
萬能的蘇聯數學家柯爾莫哥洛夫對計算機科學有兩大貢獻。 首先，他和美國數學家所羅門諾夫和蔡廷獨立發展的所羅門諾夫-柯爾莫哥洛夫-蔡廷理論（大多數時間被更簡單地稱為柯爾莫哥洛夫複雜性，或演算法資訊理論）正在成為大語言模型的理論基礎和解釋工具。 追隨柯爾莫哥洛夫做複雜性研究的學生列文（Leonid Levin，1948-），獨立於庫克（Stephen Cook，1939-），在1970年代初期得出了NP-完全性的結果，2000年後這個原以庫克為名的定理，在計算理論的教科書裡多被改稱為庫克-列文定理。 列文雖沒有像庫克那樣得到計算機科學的最高獎圖靈獎，但得了ACM和IEEE聯合頒發的高德納（Knuth）獎，算是補償。 
柯爾莫哥洛夫的另一重要貢獻在數學界影響廣泛，但很晚才被計算機科學家和人工智慧學者賞識，儘管這項工作出現更早。 他和學生弗拉基米爾·阿諾德在1956-1957年間共同證明的表示定理或稱疊加（superposition）定理，後來成為神經網路的理論基礎。 神經網路復興的數學保障是通用逼近定理（universal approximation theorem），其源頭就是柯爾莫哥洛夫-阿諾德疊加。 就像柯爾莫哥洛夫的很多工作，都是他先開頭指明方向，並且給出證明的思路或者證明的速寫版，然後由學生們精化為完美的素描。 
柯爾莫哥洛夫的另一重要工作KAM理論，也是和阿諾德合作完成的。 阿諾德和以色列邏輯學家謝樂赫分享（Saharon Shelah）了2001年的沃爾夫獎，和另一位俄國數學物理學家法捷耶夫分享了2008年的邵逸夫獎。 丘成桐公允地說，在亞歷山德羅夫和柯爾莫哥洛夫等領導下的俄羅斯數學學派，當時已經接近美國數學的總體水平。 
以ChatGPT代表的大語言模型引發的討論，多聚焦於資料與算力等工程問題，理論方面的研究則不那麼熱烈。 大模型向計算理論提出了新問題，而計算理論也可幫助大模型示第一性原理，從而找到邊界和方向。 在當下的理論沒法解釋工程實踐時，工程師們也會轉向歷史去尋找前輩們被埋沒的思想，力圖為何去何從提供方向性的洞見。 
早期神經網路的發展
神經網路作為大腦啟發（Brain-inspired）的計算模型，始於麥卡洛克（Warren McCulloch, 1898-1969）和皮茨（Walter Pitts，1923-1969）1943年的工作。 兩位作者之一的皮茨是自學成才的邏輯學家，而麥卡洛克是神經心理學家，是皮茨老師輩的人物，他們提出神經元有一個閾值，即刺激必須超過這個閾值才能產生脈衝。 雖然二人沒有引用圖靈和丘奇（Alonzo Church）在1936-1937年的論文，但在文中明確提出，只要給他們的網路提供無窮儲存，他們的網路可以模擬λ-演算和圖靈機。 
隨後相關的研究不斷。 丘奇的學生克萊尼（Stephen Cole Kleene，1909-1994）1956年進一步研究了McCulloch-Pitts 網路的表達能力。 各種啟用函式的選擇是門藝術。 McCulloch-Pitts 網路是離散的，更特定地說，是布林值的，非0即1。 現代的神經網路啟用函式大多是非線性的，不侷限於布林值。 可以說，McCulloch-Pitts 網路更像是布林電路，而不是現代意義的神經網路。 
弗蘭克·羅森布拉特(Frank Rosenblatt)提出的“感知機”（Perceptron）是1950年代神經網路的標誌性工作。 羅森布拉特是心理學出身，1957年在一臺IBM 704機上實現了單層“感知機”神經網路，證明了感知機可以處理線性可分的模式識別問題，隨後又做了若干心理學實驗，力圖證明感知機有學習能力。 羅森布拉特1962年出了本書《神經動力學原理：感知機和大腦機制的理論》（），總結了他的所有研究成果，一時成為神經網路派的必讀書。 羅森布拉特的名聲越來越大，得到的研究經費也越來越多。 美國國防部和海軍都資助了他的研究。 羅森布拉特一改往日的害羞，成了明星，頻頻在媒體出鏡，開跑車，彈鋼琴，到處顯擺。 幾乎每個時代都有媒體需要的具有娛樂潛質的科技代表人物。 媒體對羅森布拉特也表現出了過度的熱情。 畢竟，能夠構建一臺可以模擬大腦的機器，當然值一個頭版頭條。 這使得另一派的人相當不爽。 
羅森布拉特和他的感知機（Frank Rosenblatt，1928-1971）。 圖源：維基百科
明斯基（Marvin Minsky）是人工智慧的奠基人之一，也是1956年達特茅斯會議的組織者之一，這個會議定義了“人工智慧”這個詞，並把神經網路也納入人工智慧的研究範圍。 早期明斯基是神經網路的支持者。 他1954年在普林斯頓大學的博士論文題目是《神經-模擬強化系統的理論及其在大腦模型-問題上的應用》，實際上就是一篇關於神經網路的論文。 但他後來改變了立場，認為神經網路並不是解決人工智慧問題的有效工具。 他晚年接受採訪時開玩笑說，那篇300多頁的博士論文從來沒有正式發表過，大概只印了三本，他自己也記不清內容了。 貌似想極力開脫自己和神經網路學科的關係。 
明斯基和羅森布拉特是中學同學，他們均在紐約的布朗克斯（Bronx）科學高中就讀。 這所學校大概是全世界智力最密集的高中之一，畢業生裡出過9個諾貝爾獎、6個普利策獎和2個圖靈獎。 明斯基是1945年的畢業生，而羅森布拉特是1946年的畢業生。 他們彼此認識，互相嫉妒。 
一次會議上，明斯基和羅森布拉特大吵了一架。 隨後，明斯基和麻省理工學院的教授佩珀特（Seymour Papert）合作，證明羅森布拉特的感知機網路不能解決XOR（異或）問題。 異或是一個基本的邏輯問題，如果連這個問題都解決不了，那意味著神經網路的計算能力實在有限。 明斯基和佩珀特把合作成果寫成書：《感知機：計算幾何學導論》（），這書影響巨大，幾乎否定了整個神經網路研究。 
明斯基（Marvin Minsky，1927-2016）。 圖源：維基百科
其實羅森布拉特此前也已預感到感知機存在侷限，特別是在“符號處理”方面，並以自己神經心理學家的經驗指出，某些大腦受到傷害的人也不能處理符號。 但感知機的缺陷被明斯基以一種敵意的方式呈現出來，對羅森布拉特是個致命打擊。 最終，政府資助機構也逐漸停止對神經網路研究的支援。 1971年，羅森布拉特在43歲生日那天划船時溺亡，有說法認為這是自殺。 
羅森布拉特和明斯基各自題為《感知機》的著作。 
希爾伯特第13問題與神經網路
要想理解AlphaFold3進步的意義，需要了解生物體包含了多個層次的複雜性。 生物的執行藍圖從DNA經由轉錄得到RNA，再由RNA翻譯生成蛋白質，蛋白在生成後會進行修飾（蛋白質產生後發生的化學變化），並經由與小分子配體（ligand）和離子，以及蛋白質之間的互作共同影響，執行特定的功能。 
大衛·希爾伯特1900年在第二屆國際數學家大會提出了23個待解數學問題，這些問題指引了後續的數學發展。 希爾伯特提出的第13個問題，相較於其他問題，並不是特別引人注目，即使在數學家群體中，也遠非廣為人知。 我們用線上搜尋引擎Google Ngram比較一下第10和第13問題，可知大概。 
Google Ngram的結果
希爾伯特第13問題是這樣說的：7次方程的解，能否用兩個變數的函式的組合表示？（Impossibility of the solution of the general equation of the 7-th degree by means of functions of only two arguments）。 希爾伯特的猜測是不能。 
我們知道5次以上的方程是沒有求根公式的。 但一元5次和6次方程可以分別變換為：
x + ax + 1 = 0,
x + ax + bx +1 = 0
愛爾蘭數學家哈密爾頓1836年證明7次方程可以透過變換簡化為：
x+ax+bx+cx+1=0
解表示為係數a，b，c的函式，即x=f(a, b, c)。 希爾伯特第13問題就是問這個三元函式是否可以表示為二元函式的組合。 
在羅森布拉特做感知機（Perceptron）的同時，柯爾莫哥洛夫和阿諾德正在研究“疊加”問題。 柯爾莫哥洛夫1956年首先證明任意多元函式可用有限個三元函式疊加構成。 阿諾德在此基礎上證明兩元足矣。 他們的成果被稱為柯爾莫哥洛夫-阿諾德表示定理，或柯爾莫哥洛夫疊加定理，有時也被稱為阿諾德-柯爾莫哥洛夫疊加（AK疊加），因為是阿諾德完成了最後的臨門一腳。 本文中以下統稱KA疊加定理或KA表示定理。 柯爾莫哥洛夫的本意不完全是為了解決希爾伯特第13問題，但疊加定理事實上構成了對希爾伯特對第13問題原來猜測的（基本）否定。 再後阿諾德和日本數學家志村五郎合作在這個問題上進一步推進。 
1973年，柯爾莫哥洛夫在準備自己的報告。 圖源：維基百科
至於是否柯爾莫哥洛夫和阿諾德“疊加”是希爾伯特第13問題的徹底解決，數學界有不同看法，有些數學家們認為希爾伯特原來說的是代數函式，而柯爾莫哥洛夫和阿諾德證明的是連續函式。 希爾伯特的原話是“連續函式”，但考慮到黎曼-克萊因-希爾伯特的傳統，數學家們認為希爾伯特的本意是代數函式。 希爾伯特第13問題的研究並沒有因為KA疊加定理完結，而是還在繼續，這超出了本文範圍。 無論如何，疊加定理，歪打正著，為後續神經網路研究奠定了理論基礎。 
阿諾德（Vladimir Arnold，1937-2010）。 圖源：維基百科
把KA疊加定理和神經網路聯絡起來的是一位數學家出身的企業家。 赫克-尼爾森（Robert Hecht-Nielsen，1947-2019）一直是神經網路的堅信者。 他1986年創辦了以自己名字命名的軟體公司HNC，專事信用卡反欺詐。 他把公司的核心技術賭在神經網路，當時正是神經網路的低潮期，需要極大的勇氣和遠見。 2002年公司被最大的信用評級公司Fair Issac以8.1億美金收購。 1987年，赫克-尼爾森在第一屆神經網路大會（ICNN，後改名為神經網路聯合大會IJCNN）上發表文章，證明可以用三層神經網路實現柯爾莫哥洛夫-阿諾德疊加。 這篇文章很短，只有三頁紙，但卻令人腦洞大開。 這個結果在理論上給神經網路研究帶來了慰藉，並激發了一系列有趣的數學和理論計算機科學的研究。 
KA疊加定理如下：
即，任意多元的連續函式都可以表示為若干一元函式和加法的疊加。 加法是唯一的二元函式。 簡單的函式都可以透過加法和一元函式疊加而成，這個道理並不難理解，如下所示，減、乘、除可由加法疊加而成：
a − b = a + (−b),
a · b = 1 /4 ((a + b) − (a − b) ) ，
a /b = a · 1/ b
所有的初等運算都可以透過一元運算和加法完成。 在這個意義上，加法是通用的（universal），用加法疊加做其他運算時並不需增加額外的維度。 
赫克-尼爾森指出，KA疊加定理可以透過兩層網路實現，每層實現疊加中的一個加號。 他乾脆就把這個實現網路稱為“柯爾莫哥洛夫網路”。 法國數學家卡漢（Jean-Pierre Kahane，1926-2017），在1975年改進了KA疊加定理，如下：
其中，h被進一步限制為嚴格單調函式，lp是小於1的正常量。 
赫克-尼爾森（Robert Hecht-Nielsen，1947-2019）和1987年論文及插圖
另一位也是數學出身的工學教授賽本科（George Cybenko），稍後在1988年證明了有兩個隱層且具sigmoid啟用函式的神經網路可以逼近任意連續函式。 賽本科的文章更具細節和證明。 雖然賽本科沒有引用Hecht-Nielsen-1986，但引用了Kolmogorov-1957。 我們不知道他是否受到了赫克-尼爾森的啟發。 而幾乎同時的獨立工作如Hornik-1989，都是既引用Kolmogorov也引用Hecht-Nielsen，可見赫克-尼爾森對揭示柯爾莫哥洛夫-阿諾德疊加的計算機科學涵義是先知先覺。 這些相關的結論及各種變體和推廣被統稱為“通用逼近定理”（Universal Approximation Theorem）。 除了連續函式，也有人力圖證明非連續函式也可以用三層神經網路逼近(Ismailov,2022)。 無論如何，學過數學的總能從第一性原理出發來考慮問題。 此後，明斯基導致的神經網路危機算是翻篇了。 
George Cybenko。 圖源：
https://engineering.dartmouth.edu/
赫克-尼爾森等的證明是存在性的而不是構造性的。 計算機科學既是科學也是工程，一個思路是不是可行，必須得伴之以演算法和實現，並且要有可靠的複雜性分析和工程演示。 
1974年，哈佛大學的一篇統計學博士論文證明了神經網路的層數增加到三層，並且利用“反向傳播”（back-propagation）學習方法，就可以解決XOR問題。 這篇論文的作者沃波斯（Paul Werbos），後來得了IEEE神經網路學會的先驅獎。 沃波斯這篇文章剛發表時，並沒有在神經網路圈子裡引起多少重視，主要原因是沃波斯的導師是社會學和政治學領域的，他想解決的問題也是統計學和社會科學的。 把“反向傳播”放到多層神經網路上就成了“深度學習”。 
深度學習首先在語音和影像識別上取得突破，後來在強化學習的幫助下，又在博弈和自然語言處理方面得到驚人的成功。 但深度學習的機制一直沒有得到滿意的解釋。 
Tomaso Poggio是英年早逝的計算機視覺研究者馬爾（David Marr）的合作者。 馬爾在1980年去世後，Poggio的興趣逐漸轉向機器學習和神經網路的理論。 許多數學家也被拉入，例如菲爾茲獎得主、長壽多產且興趣廣泛的數學家斯梅爾（Stephen Smale）。 不過， Poggio並不認可KA疊加定理可以作為通用逼近網路的數學基礎。 他早在1989年就著文指出實現KA疊加的網路是不平滑的（見Girosi & Poggio, 1989）。 在後續的工作中，他還指出維度災難（CoD）取決於維度/平滑度。 平滑度不好，自然會導致維度災難。 KA疊加定理雖有理論價值，但直接應用到實際的神經網路上，會碰到平滑性問題，於是工程上鮮有進展。 KA疊加定理從此被遺忘。 
到了今年5月，KA疊加定理又重新得到重視。 麻省理工學院的物理學家和科普作家Max Tegmark，在主業宇宙學之外一直喜歡跟蹤人工智慧尤其是機器學習。 他作為通訊作者、劉子鳴作為第一作者的最新文章就力圖復活KA疊加定理。 他們認為，原始的柯爾莫哥洛夫網路只有兩層，如果把層數加深，把寬度拓廣，也許可以克服平滑性的問題。 他們把推廣的網路稱為KAN（Kolmogorov-Arnold Network），而事實上，赫克-尼爾森早就把實現KA疊加定理的網路稱為Kolmogorov Network。 
物理學家Max Tegmark。 圖源：維基百科
實現疊加定理的網路都可圖示如下：
KAN的作者們自稱的最關鍵的創新點之一，是把計算放在網路的邊（edge）上而不是點（node）上，點上只執行加法運算，這樣可以縮小網路的規模。 因為疊加定理只需要加法（二元的）和一元函式，實現一元函式的點可以坍塌成為邊，邊就是點，點就是邊，這一點並不令人驚奇。 如上圖，點h可以看成是連線輸入x和g之前加法的邊。 KAN中的加法只能在點上實現，因為加法是二元的，需要兩個輸入。 在這個意義上，KAN和多層感知器(MLP)沒有本質區別。 正常的網路中，邊數是點數的平方級，網路規模的縮小是否真正帶來計算量的減少，仍需理論和實驗的共同探索。 
KAN的另一創新之一是學習啟用函式而不是學習權重。 但學習函式比學習權重要困難得多。 KAN中，啟用函式是用B-spline來擬合的，B-spline的所有劣勢自然也會被帶進KAN中。 如果學習啟用函式的成本很高，網路就喪失了通用性（universality）。 目前需要在工程實踐中進一步證明KAN的優勢。  但無論無何，KAN的工作鼓勵我們從第一性原理出發去尋找新的路徑，為解釋提供數學依據。 
一段歷史和一個思想實驗：第谷機器
啟蒙運動後的思潮在理性主義和經驗主義之間一撥一撥地迭代演進。 科學亦如此。 哥白尼毫無疑問是理性主義者，他的工具是數學。 之後的開普勒也是理性主義者。 但他們之間的第谷布拉赫卻是徹頭徹尾的經驗主義者，他的工具是自制的各種測量儀器，他那時還沒有望遠鏡。 其身後留下24本觀測資料，其中包含777顆恆星的星表。 這批資料被開普勒繼承。 瀕死的貴族第谷布拉赫已經和小肚雞腸的開普勒幾乎鬧翻了。 這段歷史的簡化版就是：哥白尼推翻了托勒密的地心說，代之以更簡單的日心說。 但第谷布拉赫並沒有走得那麼遠，按照劍橋科學史家霍斯金的說法：第谷在哥白尼創新的地方保守，而在哥白尼保守的地方創新。 他提出了準日心說：所有行星都繞著太陽轉，但太陽帶著行星們圍著地球轉。 開普勒修正了第谷的工作，提出了行星運動三定律，工具就是數學。 開普勒的工作得到伽利略的肯定。 伽利略又是一個經驗主義者，他有了更新的工具：望遠鏡。 1609年，開普勒在《新天文學》中首先發表頭兩條定律的時候，伽利略剛造出3倍的望遠鏡。 
第谷布拉赫自制的觀測裝置，按今天的標準看，都是些簡陋的玩具。 但，我們假設他除了那些裝置之外，還有一臺現代的先進的機器學習裝備。 為了方便，我們暫且稱之為第谷機，這臺學習機可以實現今天的深度學習和強化學習等各種機器學習演算法。 他可以把他那24大本記錄資料餵給這臺第谷機對之加以訓練，訓練好的第谷機就可以輸出任意一個恆星和行星的軌道資料。 若如此，日心說還是地心說還重要嗎?反正第谷機能輸出我們需要的資料。 第谷機的表現，當時的人肯定難以解釋，估計會稱之為“湧現”。 那我們可以說這個第谷機完成的功能是科學嗎？它的行為可以解釋嗎？必須列出方程才能稱之為解釋嗎？多麼簡單的方程才能稱之為解釋？這甚至可以影響我們做科學的方式，按照第谷機的機制，我們只是負責不停地收集資料，然後餵給機器，不斷完善預測機制。 如果牛頓之前就有了深度學習，那麼是不是就不會有牛頓定律乃至相對論了？只有數值解而沒有解析解的方程所描述的世界就不能被理解嗎？不受限制的三體問題不能算被理解嗎？
尾聲
阿諾德除了對數學的技術內容做出深刻貢獻，對數學哲學和數學史也有很多有趣的論斷。 他曾說：數學就是物理學中那些實驗成本很低的部分（Mathematics is the part of physics where experiments are cheap）。 我們也可以套用此話說，計算科學其實才是物理學中實驗成本很低的部分。 我們可以問：人類能夠學習的東西比理性更多、更少還是一樣？通用逼近定理似乎指向理性不會比可學習的更多。 我們可以更加深入地探討KA疊加定理的哲學蘊意。 
阿諾德在接受採訪時說：“布林巴基學派（Bourbakists）聲稱所有偉大的數學家——用狄利克雷（Peter Gustav Lejeune Dirichlet）的話來講——是‘用清晰的思想代替盲目的計算’。 布林巴基宣言中的這句話，翻譯成俄語變成了‘用盲目的計算代替清晰的思想’，宣言的譯審是柯爾莫哥洛夫，他精通法語。 我發現這一錯誤後大吃一驚，就去找柯爾莫哥洛夫討論。 他答道：我不覺得翻譯有什麼問題，翻譯把布林巴基風格描述得比他們自己說的更準確。 遺憾的是，龐加萊（Henri Poincaré）沒在法國建立一個學派。 ”蘇聯數學家的毒舌和幽默別具一格。 
當休謨說牛頓發現了物的定律時，他本意是想把牛頓拉到經驗主義的陣營。 但牛頓摒棄了機械論。 我們力圖說丘奇-圖靈論題為心的定律（實際上是“論題”）。 我們對人工智慧的可解釋性要求是基於機械論的。 可解釋性的目的是在法庭上給老百姓（average person）解釋，而不是在最聰明的精英化之間形成共識。 過去，科學的可解釋性，是科學成功的標誌。 還原論（reductionist），作為現代科學的傳統，就是把一個難解的大問題還原為更小的、更原始且更易解釋的小問題。 機械論就是把所有運動都還原為某種碰撞，萬有引力不需要碰撞，在機械論的角度就是不可解釋的。 而大模型則是把一堆以前不知是不是可解的小問題堆在一起打包解決，當整體問題被解決後，裡面的小問題就不被人們認為是重要了。 
我們可以說理性主義是“清晰的思想”，而黑盒子是“盲目的計算”。 但物理定律一定比黑盒子更加經濟嗎？常說飛機不是學鳥，而是依靠流體力學，那是因為製造超級大鳥的成本太高。 如果造鳥的成本低於求解流體力學方程，造鳥也許不是一個很壞的選擇。 Max Tegmark等試圖用符號迴歸（symbolic regression）從資料中找出物理定律（Undrescu & Tegmark）。 他的資料集之一是費曼《物理學講義》中列出的公式。 如果我們把學習看作是壓縮，“盲目計算”有時可能比“清晰思想”（如符號迴歸或解析解）的壓縮比更高。 科學問題在某種意義上成了經濟學問題。 也正是在這個意義上，計算機科學比物理學更加接近第一性原理，物理學不過是計算機科學的符號迴歸。 
作者簡介：
尼克，烏鎮智庫理事長。 曾獲吳文俊人工智慧科技進步獎。 中文著作包括《人工智慧簡史》《理解圖靈》《UNIX核心剖析》和《哲學評書》等。 
參考文獻：（上下滑動可瀏覽）
Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Soljačić, M.,  & Tegmark, M. (2024). KAN: Kolmogorov-Arnold Networks. arXiv preprint arXiv:2404.19756.
Cucker, F. & Smale, S. (2001), On the Mathematical Foundations of Learning, BULLETIN OF THE AMS, Volume 39, Number 1, Pages 1–49
Cybenko, G. (1988), Continuous Valued Neural Networks with Two Hidden Layers are Sufficient, Technical Report, Department of Computer Science, Tufts University.
Cybenko, G. (1989), Approximation by Superpositions of a Sigmoidal Function, Mathematics of Control, Signals, and Systems, 2(4), 303–314.
Girosi, F. & Poggio, T. (1989), Representation properties of networks: Kolmogorov’s theorem is irrelevant, Neural Computation，1 (1989), 465–469.
Hecht-Nielsen, R. (1987), Kolmogorov’s mapping neural network existence theorem, Proc. I987 IEEE Int. Conf. on Neural Networks, IEEE Press, New York, 1987, vol. 3, 11–14.
Hilbert, D. (1900). Mathematische probleme. Nachr. Akad. Wiss. Gottingen, 290- 329. (“數學問題”，《數學與文化》北京大學出版社, 1990）
Hornik, K. et al (1989), Multilayer Feedforward Networks are Universal Approximators, Neural Networks, Vol. 2, pp. 35Y-366, 1989.
Ismailov, V. (2022), A three layer neural network can represent any multivariate function, 2012.03016.pdf (arxiv.org)
Kahane, J. P. (1975), Sur le theoreme de superposition de Kolmogorov. J. Approx. Theory 13, 229-234.
Kleene, S.C. (1956), Representation of Events in Nerve Nets and Finite Automata. Automata Studies, Editors: C.E. Shannon and J. McCarthy, Princeton University Press, p. 3-42, Princeton, N.J.
Kolmogorov, A.N. (1957), On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition, (Russian)， Dokl. Akad. Nauk SSSR 114, 953–956.
Kolmogorov, A.N. (1988), How I became a mathematician, (姚芳等編譯，我是怎麼成為數學家的，大連理工大學出版社，2023)
W. S. McCulloch, W. Pitts. (1943), A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, Vol. 5, p. 115-133.
Poggio, T. & Smale, S. (2003), The Mathematics of Learning: Dealing with Data, NOTICES OF THE AMS
Togelius, J. & Georgios N. Yannakakis, Choose Your Weapon: Survival Strategies for Depressed AI Academics,  (arxiv.org)
Udrescu, Silviu-Marian & M. Tegmark (2020), AI Feynman: a Physics-Inspired Method for Symbolic Regression, arxiv
尼克 (2021), 人工智慧簡史, 第2版.
來源：賽先生

《無心插柳：蘇聯數學家柯爾莫哥洛夫與神經網路的新生_理論_研究_工作》完，請繼續朗讀精采文章。
喜歡 科學報 cn-n.net，請記得按讚、收藏及分享。