Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Large language models in methodological quality evaluation of radiomics research based on METRICS: ChatGPT vs NotebookLM vs radiologist.
基於 METRICS 的放射組學研究方法學質量評估中的大型語言模型：ChatGPT 與 NotebookLM 與放射科醫生的比較。 Eur J Radiol 2025-02-12

這項研究評估了大型語言模型（LLMs），特別是ChatGPT-4和NotebookLM，使用METhodological RadiomICs Score（METRICS）工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章，結果顯示ChatGPT-4的中位數得分為79.5%，優於NotebookLM（61.6%）和人類專家（69.0%），且差異顯著。雖然LLMs在評估速度上較快，但仍需改進，以便更接近人類專家的評估結果。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Urban walkability through different lenses: A comparative study of GPT-4o and human perceptions.
不同視角下的都市步行友善性：GPT-4o 與人類感知的比較研究 PLoS One 2025-04-29

這項研究發現，GPT-4o用街景照評估都市可步行性時，和人類在多數指標（像是可行性、可達性、安全性）評分差不多，但在人類感受較細膩的舒適度和活力上有落差。總結來說，GPT-4o雖然有潛力，但要完整反映人類感受，還是得靠人類參與，模型也需再優化。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Evaluating the capacity of large language models to interpret emotions in images.
大型語言模型解讀影像中情緒能力之評估 PLoS One 2025-06-03

這項研究發現，GPT-4在辨識圖片情緒（愉悅度和激發度）時，表現和人類相近，但對細微情緒還是有點吃力。這代表未來用GPT-4來自動篩選和驗證情緒刺激，有機會大幅減少人力、提升效率。 PubMed DOI

Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.
大型語言模型可用於提取人類神經影像學文獻的註釋中繼資料 bioRxiv 2025-06-04

最新的商業大型語言模型（像GPT-4o），在神經影像的中繼資料標註上，表現幾乎跟專業人員一樣好（zero-shot下得分0.91–0.97），錯誤率也差不多，很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集，方便未來測試。 PubMed DOI

Evaluation of a large language model (ChatGPT) versus human researchers in assessing risk-of-bias and community engagement levels: a systematic review use-case analysis.
大型語言模型（ChatGPT）與人類研究人員在評估偏倚風險與社區參與程度之比較：系統性回顧案例分析 Eur J Public Health 2025-06-10

研究用兩個自訂GPT模型和人工審查者比較，評估系統性回顧的偏誤風險和參與程度。結果顯示，GPT模型的分類和人工類似，但在細節分布上有些不同，統計上沒顯著差異。雖然GPT有潛力，但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

Moving LLM evaluation forward: lessons from human judgment research.
推動 LLM 評估向前發展：來自人類判斷研究的啟示 Front Artif Intell 2025-06-11

**重點摘要：** 這篇論文建議，評估大型語言模型（LLMs）的方法可以參考人類判斷與決策相關的研究經驗。作者認為，目前常用的評估方式太過侷限，如果能採用更細緻、貼近現實情境的評估方式——就像我們評估人類推理能力一樣——將能讓LLM的表現評估更可靠、更有意義。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

原始文章

站上相關主題文章列表