Evaluating large language models for selection of statistical test for research: A pilot study.
評估大型語言模型在研究統計檢定選擇中的應用：一項初步研究。 Perspect Clin Res 2024-11-25

這項研究評估了四個大型語言模型（LLMs），包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity，來推薦適合的統計測試。研究人員使用27個已發表文獻的案例，將這些模型的建議與人類專家的建議進行比較。結果顯示，所有模型的建議一致性超過75%，接受度超過95%。特別是ChatGPT3.5的符合度最高，達85.19%，而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試，但無法完全取代人類專業知識。 PubMed DOI

Humor as a window into generative AI bias.
幽默作為了解生成式 AI 偏見的窗口。 Sci Rep 2025-01-08

這項研究探討了生成式人工智慧（如ChatGPT）如何透過幽默提示改變圖像。結果顯示，幽默與AI生成內容的表現之間有微妙關係。當幽默涉及政治敏感特徵（如種族、性別）時，相關刻板印象的表現通常會減少，顯示出對這些議題的敏感性。相對地，對於較不敏感的特徵（如年長者、視力障礙者），幽默可能無意中延續刻板印象。這強調了在AI內容中使用幽默的複雜性，並提出了倫理考量，提醒我們注意幽默對不同群體的影響及潛在的無意識歧視。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Testing the limits of large language models in debating humans.
大型語言模型在人類辯論中的極限測試 Sci Rep 2025-04-22

**重點摘要：** 大型語言模型（LLMs）可以參與以辯論為基礎的社會學實驗，通常比人類更能專注在主題上，進而提升團隊的生產力。不過，人類覺得LLM代理人比較不具說服力，也比較沒有自信，而且這些代理人在辯論時的行為和人類有明顯差異，因此很容易被辨識出是非人類參與者。 PubMed DOI

Exploring large language models for summarizing and interpreting an online brain tumor support forum.
運用大型語言模型於線上腦腫瘤支持論壇的摘要與詮釋之探討 Digit Health 2025-04-29

這項研究發現，GPT-4在總結腦瘤支持論壇貼文時，品質和效率都勝過GPT-3.5、Llama 3和傳統主題分析法，結果也跟人工分析相近，但速度快很多。雖然GPT-4很有潛力協助健康相關資料分析，但還是有模型偏誤和處理限制等問題需要注意。 PubMed DOI

Artificial Intelligence and the Illusion of Understanding: A Systematic Review of Theory of Mind and Large Language Models.
人工智慧與理解的錯覺：Theory of Mind 與大型語言模型的系統性回顧 Cyberpsychol Behav Soc Netw 2025-05-07

大型語言模型像GPT-4雖然能解簡單的心智理論題目，但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式，並不代表真的理解。現有研究多用文字題，忽略人類社會認知的多元面向。這篇評論提醒大家，LLMs不等於真正的人類心智理論，未來評估方式要更貼近現實。 PubMed DOI

Large language models are proficient in solving and creating emotional intelligence tests.
大型語言模型在解決與創建情緒智力測驗方面表現優異。 Commun Psychol 2025-05-21

最新研究發現，像ChatGPT-4這類大型語言模型，在標準情緒智力測驗的表現比人類還好，正確率高達81%，遠超人類的56%。此外，AI也能自己出題，難度跟原本題目差不多。整體來說，AI不只會答題，連出題都很厲害，顯示它對人類情緒真的很懂。 PubMed DOI

Evidence from counterfactual tasks supports emergent analogical reasoning in large language models.
反事實任務的證據支持大型語言模型中出現的類比推理能力 PNAS Nexus 2025-05-28

近期有研究質疑大型語言模型（LLMs）是否真的會類比推理，還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳，但本研究發現，只要讓LLMs能寫和執行程式碼，即使在全新題型上也能舉一反三，證明它們真的有類比推理能力，不只是死背或模仿。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

原始文章

站上相關主題文章列表