Assessing the performance of ChatGPT in medical ethical decision-making: a comparative study with USMLE-based scenarios.
評估 ChatGPT 在醫學倫理決策中的表現：與 USMLE 基於情境的比較研究。 J Med Ethics 2025-01-25

人工智慧（AI）在醫療領域的應用帶來了機會與挑戰，尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現，使用了273道來自不同題庫的問題。結果顯示，GPT-3.5的正確回答率普遍低於醫學生的平均水平，而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力，但人類的推理能力仍然優於AI，未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

Unveiling GPT-4V's hidden challenges behind high accuracy on USMLE questions: Observational Study.
揭示 GPT-4V 在 USMLE 問題高準確率背後的隱藏挑戰：觀察性研究。 J Med Internet Res 2025-02-07

最近的研究顯示，GPT-4V在醫學影像的解讀上有不錯的潛力，尤其在美國醫學執照考試中表現優異，Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過，雖然正確答案的解釋質量接近人類專家，但錯誤答案的解釋常常不準確，顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰，需要多次提示才能給出準確解釋。因此，在將GPT-4V應用於臨床前，仍需進一步評估其影像解釋能力。 PubMed DOI

Which AI doctor would you like to see? Emulating healthcare provider-patient communication models with GPT-4: proof-of-concept and ethical exploration.
您希望看到哪位 AI 醫生？以 GPT-4 模擬醫療提供者與病人之間的溝通模式：概念驗證與倫理探索。 J Med Ethics 2025-03-03

這篇論文探討如何利用大型語言模型（LLMs），像是ChatGPT-4，來改善醫療溝通，讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式：父權式、資訊式、詮釋式和審議式，旨在滿足病人的需求與偏好。不過，論文也提到潛在風險，如可能加深偏見及LLMs的說服性，可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

AI-assisted decision-making in mild traumatic brain injury.
輕度創傷性腦損傷中的AI輔助決策。 BMC Emerg Med 2025-03-13

這項研究探討了使用ChatGPT（特別是GPT-4版本）來協助輕度創傷性腦損傷（TBI）患者的臨床決策。研究分析了17個案例，四位急診醫學專家根據清晰度、科學準確性和滿意度評估GPT-4的回應。主要發現顯示，雖然GPT-4在提供科學合理的回應上有潛力，但關鍵錯誤和可讀性問題顯示在緊急情況下仍需專業醫療人員的監督。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

GPT-4's performance in supporting physician decision-making in nephrology multiple-choice questions.
GPT-4 在協助腎臟科醫師多選題決策中的表現 Sci Rep 2025-05-02

研究發現，GPT-4能幫助醫師提升腎臟科答題分數，尤其對資淺醫師幫助最大。不過，在某些臨床領域，資深醫師參考GPT-4後反而表現變差。雖然GPT-4有助提升準確率，但在醫療決策時仍需謹慎使用。 PubMed DOI

Exploring the Potential of GPT-4 in Creating Billing Codes from Clinic Notes.
探討 GPT-4 於從門診紀錄生成醫療計費代碼的潛力 Stud Health Technol Inform 2025-05-17

這項研究發現，GPT-4自動分配醫療收費代碼的正確率偏低，僅約2到3成，無論是根據代碼描述還是實際門診紀錄。雖然GPT-4有潛力，但目前還無法精確處理醫療收費代碼的複雜細節，實務應用上還有很大進步空間。 PubMed DOI

Generative AI Demonstrated Difficulty Reasoning on Nursing Flowsheet Data.
生成式 AI 在護理紀錄表（Nursing Flowsheet）資料推理上表現困難 AMIA Annu Symp Proc 2025-05-26

研究發現，GPT-4在解讀護理紀錄表時，雖有潛力減輕紀錄負擔，但常遺漏重要資訊，表現不如護理專家。專家不僅更精確，還能補充背景說明。整體來說，AI還需加強訓練和驗證，才能真正協助臨床工作，避免增加醫護人員負擔。 PubMed

Charting the ethical landscape of generative AI-augmented clinical documentation.
生成式 AI 輔助臨床紀錄的倫理全景探討 J Med Ethics 2025-05-28

生成式AI像ChatGPT未來可協助醫療文件處理，減輕醫師行政負擔並提升紀錄標準化。不過，這也帶來偏見、臨床判斷影響、醫病關係改變等倫理疑慮，且出錯時責任歸屬不明。建議應主動告知病人、醫師審查AI草稿、訂定規範及錯誤通報機制，並強化多元訓練資料與醫學教育。 PubMed DOI

Exploring the potential of AI-powered applications for clinical decision-making in gynecologic oncology.
探討人工智慧應用於婦科腫瘤臨床決策的潛力 Int J Gynaecol Obstet 2025-06-13

這項研究發現，GPT-4在乳癌和婦科癌症治療建議上表現尚可，乳癌案例與專家意見一致率最高達84%。雖然經過多次提示後表現有提升，但在正確性、完整性及手術、基因檢測建議上仍有限制。未來AI可輔助臨床決策，但專家把關還是很重要。 PubMed DOI

原始文章

站上相關主題文章列表