Analysis of large-language model versus human performance for genetics questions.
大型語言模型與人類在基因問題上表現的比較分析。 Eur J Hum Genet 2024-04-09

研究比較了ChatGPT與人類回答基因問題的表現，發現ChatGPT準確率為68.2%，人類為66.6%，兩者在記憶問題上表現較好。然而，ChatGPT有時會對同一問題給出不同答案。儘管ChatGPT表現令人印象深刻，但在高風險場景如臨床應用中有限制，解決這些將對實際應用至關重要。 PubMed DOI

Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Prompts, Pearls, Imperfections: Comparing ChatGPT and a Human Researcher in Qualitative Data Analysis.
ChatGPT 與人類研究者在質性數據分析中的比較：提示、要點、不足。 Qual Health Res 2024-05-22

ChatGPT對科學研究的影響仍有爭議，但在支持質性研究方面的潛力尚未完全被了解。本文探討了ChatGPT在分析訪談文本方面的表現，並與人類研究者進行了比較。ChatGPT識別出與人類研究者相似的主題，包括更微妙的動態。它提出了一個代碼手冊和關鍵引文，具有表面效度但需要進一步審查。ChatGPT能夠將主題與理論話語有力地聯繫起來，儘管仍有挑戰存在，但其表現超出預期，顯示可能有助於質性研究實踐。 PubMed DOI

Triage Performance Across Large Language Models, ChatGPT, and Untrained Doctors in Emergency Medicine: Comparative Study.
緊急醫學中大型語言模型、ChatGPT 和未受訓醫生的分流表現：比較研究。 J Med Internet Res 2024-06-14

研究評估LLMs和ChatGPT在急診室分流的效果，與受訓與否的人員比較。結果顯示LLMs和ChatGPT表現不錯，但沒有超越專業人員。雖然在此研究中未顯著改善未受訓醫生的工作，但新LLMs版本經更多訓練後有潛力提升。 PubMed DOI

Evaluating large language models in analysing classroom dialogue.
評估大型語言模型在分析課堂對話中的表現。 NPJ Sci Learn 2024-10-02

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何應用於分析課堂對話，以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識，研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據，將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示，GPT-4能顯著節省時間，且編碼一致性高，顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

Evaluating large language models for selection of statistical test for research: A pilot study.
評估大型語言模型在研究統計檢定選擇中的應用：一項初步研究。 Perspect Clin Res 2024-11-25

這項研究評估了四個大型語言模型（LLMs），包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity，來推薦適合的統計測試。研究人員使用27個已發表文獻的案例，將這些模型的建議與人類專家的建議進行比較。結果顯示，所有模型的建議一致性超過75%，接受度超過95%。特別是ChatGPT3.5的符合度最高，達85.19%，而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試，但無法完全取代人類專業知識。 PubMed DOI

Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

A mixed-methods study comparing human-led and ChatGPT-driven qualitative analysis in medical education research.
比較人類主導與 ChatGPT 驅動的醫學教育研究質性分析的混合方法研究。 Nagoya J Med Sci 2025-01-09

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時，研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示，ChatGPT在大多數領域表現良好，但在可轉移性和分析深度上有所不同。六個關鍵主題包括：與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據，但深入分析仍需人類參與以增強深度。 PubMed DOI

Evaluating ChatGPT-4omni in paediatric developmental screening: direct versus sequential prompts.
評估 ChatGPT-4omni 在兒童發展篩檢中的應用：直接提示與序列提示的比較。 BMJ Paediatr Open 2025-03-03

將像 ChatGPT-4o 這樣的語言模型應用於兒童醫療，可能會顯著改善發展篩檢的流程。本研究評估了 ChatGPT-4o 的有效性，對比了直接提示和序列提示兩種方法，並與貝利嬰兒發展量表第三版進行比較。在106個兒科案例中，直接提示的敏感度為73.42%，整體準確率為69.81%；而序列提示的特異性為62.96%，整體準確率為67.92%。結果顯示，直接提示在識別發展問題上更敏感，序列提示則提供較高的特異性。這項研究顯示語言模型在兒童發展評估中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表