Assessing the risk of takeover catastrophe from large language models.
評估大型語言模型被接管的災難風險。 Risk Anal 2024-06-30

討論了大型語言模型（LLMs）可能帶來的風險，提到目前的LLMs能力有限，但未來可能存在潛在風險。建議監控警訊，準備應對，但在信號出現前不需採取激進措施。 PubMed DOI

Perils and opportunities in using large language models in psychological research.
在心理研究中使用大型語言模型的風險與機會。 PNAS Nexus 2024-07-17

心理研究中使用大型語言模型(LLMs)引起關注，但「GPTology」的使用限制和風險令人擔憂，可能影響像ChatGPT這樣的模型。我們需了解LLMs在心理研究中的限制、道德問題和潛力，解決其對實證研究的影響。重要的是認識全球心理多樣性，謹慎看待LLMs作為通用解決方案，發展透明方法從AI生成的數據中做可靠推論。多元化人類樣本，擴展心理學方法，確保科學包容可靠，避免同質化和過度依賴LLMs。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Strategic behavior of large language models and the role of game structure versus contextual framing.
大型語言模型的策略行為及遊戲結構與情境框架的角色。 Sci Rep 2024-08-09

這篇論文探討大型語言模型（LLMs）如GPT-3.5、GPT-4和LLaMa-2在博弈理論中的策略行為，並分析遊戲結構與背景對決策的影響。研究發現： - **GPT-3.5** 對背景敏感，但抽象策略思考較弱。 - **GPT-4** 專注於遊戲內部機制，對背景敏感度低，區分遊戲類型較粗略。 - **LLaMa-2** 在理解遊戲結構與考量背景上取得平衡，處理複雜策略情境時更具優勢。總體來看，LLaMa-2在整合遊戲結構與背景方面表現最佳，而GPT-4則偏向一般化的結構策略。 PubMed DOI

The Limitations of Large Language Models for Understanding Human Language and Cognition.
大型語言模型在理解人類語言和認知方面的局限性。 Open Mind (Camb) 2024-09-04

這段論述指出大型語言模型（LLMs）在理解人類語言的學習與演變上有其限制。主要有兩個觀點： 1. **功能與機制的差異**：雖然LLMs能生成類似人類的語言，但其學習過程與人類不同。人類透過多種感官互動學習語言，而LLMs主要依賴文本數據，這使得它們的相似性只是表面現象。 2. **語言行為的範疇**：人類的語言使用範圍更廣，而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。因此，LLMs應被視為輔助語言研究的工具，而非語言理論本身，這強調了謹慎應用的必要性。 PubMed DOI

Larger and more instructable language models become less reliable.
更大且更具可指導性的語言模型變得不那麼可靠。 Nature 2024-09-25

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力，並進行後處理和微調。然而，這樣的調整可能會影響模型的可靠性。我們的研究發現，雖然模型在簡單任務上表現不錯，但在低難度領域的準確性卻不穩定，特別是人類監督能夠發現的錯誤。早期模型常避免回答，而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的，尤其是在需要可預測錯誤的應用中。 PubMed DOI

Large language models are less effective at clinical prediction tasks than locally trained machine learning models.
大型語言模型在臨床預測任務中的效果不如本地訓練的機器學習模型。 J Am Med Inform Assoc 2025-03-08

這項研究比較了大型語言模型（如GPT-3.5和GPT-4）與傳統機器學習方法（如梯度提升樹）在使用電子健康紀錄預測臨床結果的效果。結果顯示，傳統機器學習在預測性能和模型校準上均優於大型語言模型，且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳，但其預測性能卻有所下降。總體來看，傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

[Technical foundations of large language models].
大型語言模型的技術基礎 Radiologie (Heidelb) 2025-03-10

大型語言模型（LLMs）如ChatGPT已經改變了人機互動和語言分析。這些模型基於自然語言處理和機器學習的進步，特別是變壓器模型的引入，能更有效理解上下文。 LLMs的訓練過程分為預訓練和監督式微調，讓模型學習語法和推理能力。然而，它們也有缺陷，常生成聽起來合理但不正確的資訊，可能誤導使用者。因此，在使用LLMs時，特別是在敏感領域如放射學，必須謹慎評估其輸出。 PubMed DOI

Evidence from counterfactual tasks supports emergent analogical reasoning in large language models.
反事實任務的證據支持大型語言模型中出現的類比推理能力 PNAS Nexus 2025-05-28

近期有研究質疑大型語言模型（LLMs）是否真的會類比推理，還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳，但本研究發現，只要讓LLMs能寫和執行程式碼，即使在全新題型上也能舉一反三，證明它們真的有類比推理能力，不只是死背或模仿。 PubMed DOI

Take caution in using LLMs as human surrogates.
在將 LLMs 作為人類代理時需謹慎。 Proc Natl Acad Sci U S A 2025-06-13

雖然大型語言模型有時能模仿人類回應，但在像 11-20 money request game 這類需要複雜推理的任務上，表現常常和人類差很多，還會受到提示語和安全機制影響，出錯方式也很難預測。所以，社會科學研究如果想用 LLMs 取代人類，真的要特別小心。 PubMed DOI

原始文章

站上相關主題文章列表