Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Evaluating large language models for selection of statistical test for research: A pilot study.
評估大型語言模型在研究統計檢定選擇中的應用：一項初步研究。 Perspect Clin Res 2024-11-25

這項研究評估了四個大型語言模型（LLMs），包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity，來推薦適合的統計測試。研究人員使用27個已發表文獻的案例，將這些模型的建議與人類專家的建議進行比較。結果顯示，所有模型的建議一致性超過75%，接受度超過95%。特別是ChatGPT3.5的符合度最高，達85.19%，而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試，但無法完全取代人類專業知識。 PubMed DOI

Examination of ChatGPT's Performance as a Data Analysis Tool.
ChatGPT 作為數據分析工具的性能檢驗。 Educ Psychol Meas 2025-01-06

這項研究評估了OpenAI的AI對話工具ChatGPT在數據分析中的有效性，特別是探索性因素分析（EFA）。研究人員生成了不同條件下的模擬數據，並在兩次不同時間點使用ChatGPT-4進行分析，與R語言的結果進行比較。結果顯示，ChatGPT在計算任務上表現良好，尤其是KMO值和因素載荷的計算，但在確定多維結構時存在一些偏差。因此，研究人員在依賴AI進行決策時應保持謹慎。總體而言，ChatGPT在簡單計算任務上顯示出潛力。 PubMed DOI

Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

ChatGPT for Univariate Statistics: Validation of AI-Assisted Data Analysis in Healthcare Research.
單變量統計的 ChatGPT：AI 輔助數據分析在醫療研究中的驗證。 J Med Internet Res 2025-02-07

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性，特別作為數據分析工具。研究使用全國住院病人樣本的子集，重點在數據管理、描述性統計和推論統計。主要發現包括： 1. **數據處理和分類**：ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**：提供正確的均值、標準差等計算。 3. **推論統計**：準確率隨提示具體性提升，從32.5%到92.5%不等。結論認為，ChatGPT對具備基本統計知識的研究人員是個有價值的工具，但需謹慎構建提示並進行監督，以確保結果準確。 PubMed DOI

Evaluating ChatGPT for neurocognitive disorder diagnosis: a multicenter study.
評估 ChatGPT 在神經認知障礙診斷中的應用：一項多中心研究。 Clin Neuropsychol 2025-03-17

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性，並與早期版本比較。研究分為兩部分，第一部分分析其與臨床醫生的診斷一致性，涉及12,922名老年人，結果顯示有一定的關聯性，但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據，未顯示顯著一致性。結論指出，雖然ChatGPT 4 Omni有潛力，但仍需改進與訓練，以提升其在臨床中的應用效果。 PubMed DOI

ChatGPT artificial intelligence in clinical data analysis: an example comparing standard vs fusion prostate biopsy outcomes after robotic-assisted radical prostatectomy (RaRP).
臨床資料分析中的 ChatGPT 人工智慧：以機器人輔助手術根除性前列腺切除術（RaRP）後，標準與融合前列腺活檢結果比較為例 Arch Ital Urol Androl 2025-05-15

這項回溯性研究比較了前列腺癌患者接受融合切片加隨機切片與單純隨機切片的升期風險，並由ChatGPT-4.0和人類專家分別分析。結果顯示，AI和人類的統計結果完全一致，且融合切片與較低升期風險有關。雖然ChatGPT分析表現可靠，但缺乏自動引用文獻功能，未來仍需加強人機協作。 PubMed DOI

Evaluating the Agreement Between ChatGPT-4 and Validated Mental Health Scales in Older Adults: A Cross-Sectional Study.
ChatGPT-4 與經驗證心理健康量表於年長者間一致性的評估：一項橫斷面研究 Am J Geriatr Psychiatry 2025-05-20

這項研究發現，ChatGPT-4在調整和執行常見的老年人心理健康問卷時，表現和傳統方法有中到高度的一致性與可靠性。顯示ChatGPT-4有機會成為心理健康評估的輔助工具，但還需要更多研究來驗證其廣泛應用的可行性。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

Short Research Article: Evaluation of an artificial intelligence language model in psychiatric patient education.
短篇研究文章：評估人工智慧語言模型於精神科病患衛教中的應用 Child Adolesc Ment Health 2025-06-25

這項研究發現，ChatGPT能給家長清楚又實用的ADHD行為訓練建議，但部分資料過時、內容也不夠深入。AI工具雖然能協助照顧者學習，但臨床應用前，建議再加強正確性和細節。 PubMed DOI

原始文章

站上相關主題文章列表