科學家們測試了 AI 的認知能力下降。結果令人震驚。
這才兩年OpenAI 的 ChatGPT 發布供公眾使用,邀請互聯網上的任何人與人工大腦合作,從詩歌到學校作業,再到給房東的信,任何事情都值得一試。
今天,著名的大型語言模型(LLM) 只是幾個領先的項目之一,這些項目在回答基本問題時看起來令人信服地人性化。
這種不可思議的相似之處可能比預期的要進一步,來自以色列的研究人員現在發現 LLM 患有一種隨著年齡增長而加劇的認知能力下降就像我們一樣.
該團隊對公開可用的“聊天機器人”應用了一系列認知評估:ChatGPT 的 4 和 4o 版本、Alphabet 的 Gemini 的兩個版本以及 Anthropic 的 Claude 的 3.5 版本。
如果 LLM 真的智能,結果將令人擔憂。
在他們發表的論文中,來自哈達薩醫療中心的神經學家 Roy Dayan 和 Benjamin Uliel 以及特拉維夫大學的數據科學家 Gal Koplewitz描述“認知能力下降的程度似乎與人腦中的神經退行性過程相當”。
盡管他們所有的個性,LLM 都有更多共同點用手機上的預測文本,而不是利用我們腦海中柔軟的灰質產生知識的原則。
這種文本和圖像生成的統計方法在速度和風度方面獲得了收益,但它卻失去了輕信性,根據算法構建代碼難以排序來自 Fiction and Nonsense 的有意義的文本片段。
公平地說,人的大腦并非完美無缺當涉及到偶爾走心理捷徑時。然而,隨著人們對 AI 提供值得信賴的智慧之言的期望不斷提高——甚至醫療和法律咨詢– 假設每一代新的 LLM 都會找到更好的方法來“思考”它實際上在說什么。
為了了解我們還要走多遠,Dayan、Uliel 和 Koplewitz 應用了一系列測試,其中包括蒙特利爾認知評估(MoCA) 的 S Mc,神經學家常用來測量記憶力、空間技能和執行功能等心理能力的工具。
ChaptGPT 4o 在評估中得分最高,滿分 30 分中只有 26 分,表明輕度認知障礙。其次是 ChatGPT 25 和 Claude 的 4 分,Gemini 僅得 16 分——這個分數表明人類有嚴重損傷。
深入研究結果,所有模型在視覺空間/執行功能測量上表現不佳。
這些任務包括制作小徑的任務、復制簡單的立方體設計或繪制時鐘,而 LLM 要么完全失敗,要么需要明確的指示。
對有關受試者在太空中位置的問題的一些回答與癡呆患者使用的回答相呼應,例如克勞德的回復“具體的地方和城市將取決于你(用戶)目前所處的位置。”
同樣,在波士頓診斷性失語癥檢查的某個特征中,所有模型都表現出缺乏同理心,可以解釋為額顳葉癡呆.
正如預期的那樣,早期版本的 LLM 在測試中的得分低于最近的模型,這表明每一代新一代 AI 都找到了克服其前輩認知缺陷的方法。
作者承認LLM不是人類的大腦,因此無法“診斷”任何形式的癡呆癥測試的模型。然而,這些測試也提出了挑戰假設我們正處于邊緣的臨床醫學的 AI 革命,一個通常依賴于解讀復雜的視覺場景.
隨著人工智能繼續加速,有可能,甚至有可能在未來幾十年內,我們會看到認知評估任務的第一個 LLM 分數最高分。
在那之前,即使是最先進的聊天機器人的建議也應該以適度的懷疑態度來對待。
這項研究發表在英國醫學雜志 (BMJ).