How Does ChatGPT Perform on the United States Medical Licensing Examination (USMLE)? The Implications of Large Language Models for Medical Education and Knowledge Assessment.
ChatGPT 在美國醫師執照考試（USMLE）上的表現如何？大型語言模型對醫學教育和知識評估的影響。 JMIR Med Educ 2024-02-27

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間，比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差，但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具，因為它準確且有邏輯性。 PubMed DOI

Need an AI-Enabled, Next-Generation, Advanced ChatGPT or Large Language Models (LLMs) for Error-Free and Accurate Medical Information.
需要一個AI-Enabled、下一代、先進的ChatGPT或大型語言模型(LLMs)，以提供無錯誤和準確的醫學資訊。 Ann Biomed Eng 2024-02-04

AI引導的ChatGPT在醫學領域的應用越來越受到關注。然而，研究人員發現ChatGPT可能提供不正確的醫學信息。該文章呼籲開發先進的AI-enabled ChatGPT或大型語言模型，以確保為用戶提供準確可靠的醫學信息。 PubMed DOI

Evaluating capabilities of large language models: Performance of GPT-4 on surgical knowledge assessments.
評估大型語言模型的能力：GPT-4 在外科知識評估中的表現。 Surgery 2024-03-20

人工智慧如ChatGPT在醫療方面有潛力，尤其在診斷和治療上。研究顯示，在外科知識問題上，ChatGPT的表現接近或超越人類水準，尤其在多重選擇問題上更優秀，提供獨到見解。然而，有時答案可能不正確，且回應可能不一致。儘管表現令人驚豔，但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

ChatGPT as a Tool for Medical Education and Clinical Decision-Making on the Wards: Case Study.
ChatGPT作為醫學教育和臨床決策工具在病房上的應用：案例研究。 JMIR Form Res 2024-05-08

大型語言模型（LLMs）如ChatGPT-3.5在醫學教育中有應用，可填補知識空白、協助鑑別診斷、挑戰假設、支援決策、改善護理管理，甚至進行困難對話、倫理教學。儘管有擔憂，但已有行為準則指導使用。ChatGPT對病房學習有潛力，但仍需進一步研究。 PubMed DOI

Using Large Language Models to Address Health Literacy in mHealth: Case Report.
利用大型語言模型應對mHealth中的健康識字問題：案例報告。 Comput Inform Nurs 2024-06-04

這個研究探討了使用ChatGPT簡化醫學內容以供大眾教育。透過調整SmartSHOTS應用程式的內容，ChatGPT幫忙將資料改寫成適合小孩理解的文字。這個工具證實在編輯健康教育材料時有效、方便又免費，顯示其是一個有用的資源，可用來製作易懂的內容。 PubMed DOI

The potential and pitfalls of using a large language model such as ChatGPT, GPT-4, or LLaMA as a clinical assistant.
使用大型語言模型如ChatGPT、GPT-4或LLaMA作為臨床助手的潛力與陷阱。 J Am Med Inform Assoc 2024-07-17

研究評估了大型語言模型在醫療保健領域的應用，尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄，測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異，而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力，但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計，以更好地應用於醫療保健。 PubMed DOI

Large language models can help with biostatistics and coding needed in radiology research.
大型語言模型可以協助放射學研究中所需的生物統計學和編碼。 Acad Radiol 2024-10-15

這項研究探討了大型語言模型（LLMs），如ChatGPT-4o、ChatGPT-3.5和Google Gemini，在輔助放射學研究中的效能。進行了兩個實驗： 1. **生物統計學與數據視覺化**：測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳，正確回答7個問題，且生成的程式碼錯誤較少。 2. **深度學習**：評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼，並透過互動修正錯誤。總體而言，LLMs對放射學研究有幫助，但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

A large language model in solving primary healthcare issues: A potential implication for remote healthcare and medical education.
大型語言模型在解決初級醫療問題中的應用：對遠程醫療和醫學教育的潛在影響。 J Educ Health Promot 2024-12-16

這項研究評估了大型語言模型ChatGPT在解決基層醫療問題的表現，透過30道相關選擇題進行測試。結果顯示，ChatGPT正確回答了28題，準確率達93.33%。此外，專業人士對其答案的解釋給予高分4.58（滿分5分），顯示其回答有理有據。評估者之間的一致性也很高，內部一致性相關係數為0.94。這些結果顯示，ChatGPT可能成為解決基層醫療挑戰的有力資源，特別是在偏遠地區，並能協助醫學生自主學習。 PubMed DOI

Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

Humans Continue to Outperform Large Language Models in Complex Clinical Decision-Making: A Study with Medical Calculators.
人類在複雜臨床決策中持續超越大型語言模型：一項使用醫療計算器的研究。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）和醫學實習生在臨床決策中推薦醫學計算器的能力。研究測試了八種LLMs，使用1,009個與臨床相關的問答。表現最佳的LLM，GPT-4o，準確率為74.3%，而人類標註者的平均準確率為79.5%。分析顯示，LLMs在理解和計算器知識上有困難，顯示人類在複雜臨床任務中仍優於LLMs。 PubMed DOI

原始文章

站上相關主題文章列表