Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Evaluating Large Language Models for Automated CPT Code Prediction in Endovascular Neurosurgery.
評估大型語言模型在血管內神經外科自動 CPT 代碼預測中的應用。 J Med Syst 2025-01-24

這項研究評估了三個大型語言模型（LLMs）—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語（CPT）代碼的效果。分析了30份手術記錄後，AtlasGPT 表現最佳，正確識別35.3%的 CPT 代碼，ChatGPT 緊隨其後，正確率為35.1%，而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出，雖然這些模型能部分識別 CPT 代碼，但進一步訓練可提升準確性，並可能降低醫療成本。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Evaluating the Efficacy of Large Language Models in Generating Medical Documentation: A Comparative Study of ChatGPT-4, ChatGPT-4o, and Claude.
評估大型語言模型在生成醫療文檔中的效能：ChatGPT-4、ChatGPT-4o 和 Claude 的比較研究。 Aesthetic Plast Surg 2025-04-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量，由整形外科醫生進行驗證。可讀性用不同指數評估，可靠性則用DISCERN分數衡量。結果顯示，Claude在速度和輸出質量上優於其他模型，成為醫療文檔中最有效率的LLM，可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Large Language Models in Action: Supporting Clinical Evaluation in an Infectious Disease Unit.
大型語言模型的應用：支援感染症單位的臨床評估 Healthcare (Basel) 2025-04-26

這項研究發現，ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯，但在隔離措施和壓瘡辨識上有失誤。整體來說，LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

原始文章

站上相關主題文章列表