Current applications and challenges in large language models for patient care: a systematic review.
大型語言模型在病患照護中的現行應用與挑戰：系統性回顧。 Commun Med (Lond) 2025-01-21

大型語言模型（LLMs）在臨床實踐中有潛力提升病人教育與賦權，提供更個人化的醫療服務。然而，目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究，主要集中於GPT-3.5和GPT-4，應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制，包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。 Healthcare (Basel) 2025-03-28

大型語言模型（LLMs）在醫療保健中展現出顯著潛力，能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示，LLMs可作為虛擬病人和個性化導師，並在醫學知識評估中超越初級實習生。在臨床決策中，它們協助診斷和治療建議，但效果因專科而異。此外，LLMs能自動化臨床筆記和報告生成，減輕醫療人員的負擔。然而，仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎，並強調倫理與合作。 PubMed DOI

Beyond Multiple-Choice Accuracy: Real-World Challenges of Implementing Large Language Models in Healthcare.
超越多選題準確性：在醫療保健中實施大型語言模型的現實挑戰。 Annu Rev Biomed Data Sci 2025-04-08

大型語言模型（LLMs）在醫療領域受到廣泛關注，但實際應用面臨幾個挑戰： 1. **操作脆弱性**：可能出現數據安全和生成錯誤資訊的問題，影響病人照護。 2. **倫理與社會考量**：涉及病人隱私和決策偏見的倫理問題，影響健康公平。 3. **性能與評估困難**：在臨床環境中評估其有效性複雜，傳統指標可能不適用。 4. **法律與監管合規性**：現有法規無法完全應對 LLMs 的特性，需要新的合規框架。解決這些挑戰對於充分發揮 LLMs 在醫療中的潛力至關重要。 PubMed DOI

Large language models in critical care.
重症醫療中的大型語言模型 J Intensive Med 2025-04-17

大型語言模型像 ChatGPT 正在改變重症醫學，能自動化病歷、協助決策、個人化溝通，還能整理非結構化資料。不過，目前還有資訊正確性、倫理和醫師AI素養等挑戰。結合傳統機器學習可降低風險，導入時要謹慎並加強醫師訓練，才能提升照護品質。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

Large Language Models in Medicine: Clinical Applications, Technical Challenges, and Ethical Considerations.
醫學中的大型語言模型：臨床應用、技術挑戰與倫理考量 Healthc Inform Res 2025-05-19

大型語言模型在醫療文件撰寫和決策輔助上很有潛力，但因準確性、驗證、偏見和隱私等問題，現階段還不適合完全自動化臨床應用。未來要安全有效導入，需加強研究、訂定明確規範，並維持人工監督。 PubMed DOI

Large Language Models in Medicine: Applications, Challenges, and Future Directions.
醫學中的大型語言模型：應用、挑戰與未來發展方向 Int J Med Sci 2025-06-16

大型語言模型如GPT-4在醫療領域展現高度潛力，能應用於臨床、研究和教學。不過，目前仍面臨幻覺、可解釋性不足及倫理等挑戰。未來應加強標準化評估、多模態發展及跨領域合作，才能真正發揮其醫療價值。 PubMed DOI

Implementing Large Language Models in Health Care: Clinician-Focused Review With Interactive Guideline.
在醫療保健中導入大型語言模型：以臨床醫師為中心的綜述與互動式指引 J Med Internet Res 2025-07-11

這篇綜述分析270篇文獻，發現現有大型語言模型（如GPT-4）雖然能協助醫師處理多種臨床任務，但沒有單一模型能全面勝任所有需求，專業任務還需客製化。多數先進模型又是封閉原始碼，造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引，幫助醫師選擇合適的LLM。 PubMed DOI

原始文章

站上相關主題文章列表