原始文章

這項研究針對大型語言模型(LLMs),如GPT-3.5、GPT-4、Claude2和Llama2的智力進行調查,特別關注前額葉功能。結果顯示,雖然GPT-3.5在某些領域表現不錯,但在計畫和理解意圖上不太穩定,Claude2也有類似情況。相對之下,Llama2在大部分測試中表現不佳。值得一提的是,GPT-4在所有任務中表現良好,顯示出更接近人類的認知能力。研究證實,傳統神經心理測試能有效評估LLM的表現。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)是強大的預訓練模型,可微調應用在各種自然語言任務,減少單獨為每個任務建模的需求。像GPT-3和LaMDA這樣的模型經過少量啟動後可與人對話,但是否真正理解語言或展現智能存在爭議。從與LLMs的訪談中得出的結論變化顯示,對其智能的看法可能取決於訪問者的智商。這可能引發反向圖靈測試。隨著LLMs的進步,它們可能改變人機互動。將LLMs與感知運動裝置整合引發了對其實際能力的問題。提出了受大腦系統啟發的改進方案,以實現人工智能通用自主性。LLMs也可能提供有關大腦功能的見解。 PubMed DOI

大型語言模型(LLMs)在推理任務上表現優秀,挑戰傳統模型。雖然有限制,但透過提供範例和擴展網絡等方法,可以增強性能,類似人類思考。分析LLM的錯誤可洞察人類偏見。LLMs帶來希望,從聯想主義角度研究智能和推理,透過認知心理學工具更深入了解人類思維。 PubMed DOI

大型語言模型(LLMs)在理解語言方面有進展,但在語言能力和認知方面看法不同。研究評估LLMs的形式語言能力和功能語言能力,人類神經科學顯示這兩種能力依賴不同神經機制。LLMs在形式能力表現優異,但在功能任務上表現不穩,可能需要額外調整或外部模組。為了達到人類般的語言使用,模型可能需掌握兩種能力,並提供專門機制。 PubMed DOI

研究發現大型語言模型(LLMs)如ChatGPT、Google的Bard和Anthropic的Claude在回答英文和波斯語神經生理學問題時表現良好,但在整合性主題上有進步空間。研究指出LLMs在高階推理和知識整合方面需要更多針對性的訓練,未來發展應更注重領域特定的評估。 PubMed DOI

研究比較人類和大型語言模型(LLM)在心智理論任務上的表現,發現像GPT-4這樣的LLM在識別間接要求和虛假信念等任務上表現與或優於人類,但在偵測社交失言方面表現不佳。LLaMA2在社交失言偵測方面表現優於人類,但進一步分析顯示這是由於一種偏見。表現差異歸因於LLM採用保守方法,需要系統性測試才能準確比較人類和人工智能。 PubMed DOI

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 PubMed DOI

這項研究探討大型語言模型(LLMs)在診斷神經腫瘤方面的潛力,特別是在不斷變化的WHO中樞神經系統腫瘤指導方針下。研究測試了ChatGPT-4o、Claude-3.5-sonnet和Llama3在30個神經病理案例中的表現。結果顯示,結合檢索增強生成(RAG)後,LLMs在識別腫瘤亞型上達到90%的準確率,顯示它們能成為神經病理學家在報告實踐中的有用工具,特別是在跟上最新分類變更方面。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI