Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。 Nat Commun 2024-03-09

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳，尤其在常見疾病方面。商業LLMs有潛力用於醫學問答，但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

Surviving ChatGPT in healthcare.
在醫療保健中應對 ChatGPT 的生存。 Front Radiol 2024-03-12

人工通用智能（AGI）和大型語言模型如ChatGPT的興起為改變醫療保健帶來了希望，可以增進病人照護、改善醫療服務的可及性，並簡化臨床運作。但整合到醫療領域需謹慎，以降低風險，如提供錯誤建議、侵犯隱私、製造假資料、過度依賴AGI培訓醫生，以及固化偏見。有效監督和規範對於管理風險、確保AGI安全有效應用於醫療至關重要。克服挑戰，AGI可提升病人照護、醫學知識和醫療實踐，造福社會。 PubMed DOI

ChatGPT as a Tool for Medical Education and Clinical Decision-Making on the Wards: Case Study.
ChatGPT作為醫學教育和臨床決策工具在病房上的應用：案例研究。 JMIR Form Res 2024-05-08

大型語言模型（LLMs）如ChatGPT-3.5在醫學教育中有應用，可填補知識空白、協助鑑別診斷、挑戰假設、支援決策、改善護理管理，甚至進行困難對話、倫理教學。儘管有擔憂，但已有行為準則指導使用。ChatGPT對病房學習有潛力，但仍需進一步研究。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

The potential and pitfalls of using a large language model such as ChatGPT, GPT-4, or LLaMA as a clinical assistant.
使用大型語言模型如ChatGPT、GPT-4或LLaMA作為臨床助手的潛力與陷阱。 J Am Med Inform Assoc 2024-07-17

研究評估了大型語言模型在醫療保健領域的應用，尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄，測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異，而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力，但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計，以更好地應用於醫療保健。 PubMed DOI

Evaluating the Appropriateness, Consistency, and Readability of ChatGPT in Critical Care Recommendations.
評估 ChatGPT 在重症護理建議中的適當性、一致性和可讀性。 J Intensive Care Med 2024-08-09

本研究比較了兩個版本的ChatGPT（3.5和4.0）在生成重症醫療建議的能力。結果顯示，ChatGPT 4.0在適當性上得分顯著高於3.5，但在一致性和可讀性方面差異不大。兩個版本都會產生錯誤資訊，顯示在缺乏專業知識的情況下使用這些工具的風險。這強調了臨床醫師需了解LLM的優缺點，以確保在重症醫療中安全有效地使用這些工具。研究已註冊於 https://osf.io/8chj7/。 PubMed DOI

Accuracy of a Commercial Large Language Model (ChatGPT) to Perform Disaster Triage of Simulated Patients Using the Simple Triage and Rapid Treatment (START) Protocol: Gage Repeatability and Reproducibility Study.
商業大型語言模型 (ChatGPT) 在使用簡單分診與快速治療 (START) 協議對模擬病人進行災難分診的準確性：Gage 重複性與再現性研究。 J Med Internet Res 2024-09-30

這項研究探討了ChatGPT在模擬災難病人分診的有效性，使用了391個病人案例和九個提示進行測試，總共產生了35,190次模擬分診。結果顯示，99.7%的查詢得到了有效的START評分，但變異性顯著。準確性為63.9%，過度分診率32.9%，不足分診率3.1%。研究結論指出，ChatGPT在醫療分診中表現不佳，提醒在臨床使用AI工具時需謹慎，並強調進行嚴謹的統計評估的重要性。 PubMed DOI

Assessing the performance of ChatGPT in medical ethical decision-making: a comparative study with USMLE-based scenarios.
評估 ChatGPT 在醫學倫理決策中的表現：與 USMLE 基於情境的比較研究。 J Med Ethics 2025-01-25

人工智慧（AI）在醫療領域的應用帶來了機會與挑戰，尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現，使用了273道來自不同題庫的問題。結果顯示，GPT-3.5的正確回答率普遍低於醫學生的平均水平，而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力，但人類的推理能力仍然優於AI，未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

Large language models are less effective at clinical prediction tasks than locally trained machine learning models.
大型語言模型在臨床預測任務中的效果不如本地訓練的機器學習模型。 J Am Med Inform Assoc 2025-03-08

這項研究比較了大型語言模型（如GPT-3.5和GPT-4）與傳統機器學習方法（如梯度提升樹）在使用電子健康紀錄預測臨床結果的效果。結果顯示，傳統機器學習在預測性能和模型校準上均優於大型語言模型，且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳，但其預測性能卻有所下降。總體來看，傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models.
AI輔助自我診斷中的醫療錯誤資訊：分析大型語言模型的方法（EvalPrompt）的開發。 JMIR Form Res 2025-03-10

大型語言模型（LLMs）如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試，但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現，結果顯示其正確率僅31%，且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確，但整體表現未達及格標準。研究強調了LLMs的局限性，並呼籲需建立更全面的自我診斷數據集，以提升其在醫療中的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表