Measured Performance and Healthcare Professional Perception of Large Language Models Used as Clinical Decision Support Systems: A Scoping Review.
大型語言模型作為臨床決策支持系統的測量性能與醫療專業人員的看法：範疇回顧。 Stud Health Technol Inform 2024-08-23

醫療領域，特別是腫瘤學，面臨許多挑戰，如腫瘤委員會會議繁忙、討論時間短，以及護理品質的擔憂。為了解決這些問題，越來越多人關注整合臨床決策支持系統（CDSSs）來協助醫生管理癌症護理。然而，CDSSs在臨床上的應用仍然有限。2022年OpenAI推出的ChatGPT引發了對大型語言模型（LLMs）作為CDSS的興趣。我們進行了一項回顧，評估LLMs在醫療專科，特別是腫瘤學中的有效性，並比較使用者看法與實際表現，以探討其在改善癌症護理結果的可行性。 PubMed DOI

Assessment of decision-making with locally run and web-based large language models versus human board recommendations in otorhinolaryngology, head and neck surgery.
耳鼻喉科、頭頸外科中當地運行和基於網絡的大型語言模型與人類專家委員會建議的決策評估。 Eur Arch Otorhinolaryngol 2025-01-10

這項研究探討大型語言模型（LLMs）在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會（MDT）與兩個LLMs（ChatGPT-4o和Llama 3）的建議。結果顯示，ChatGPT-4o與MDT的符合率為84%，Llama 3則為92%。兩者都能識別第一線治療選擇，且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價，但研究強調應用於輔助決策，而非取代專業醫師，特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

AI in clinical decision-making: ChatGPT-4 vs. Llama2 for otolaryngology cases.
臨床決策中的人工智慧：ChatGPT-4 與 Llama2 在耳鼻喉科案例中的比較。 Eur Arch Otorhinolaryngol 2025-04-12

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示，ChatGPT-4在82%的案例中正確診斷，優於Llama2的76%。在額外檢查建議上，ChatGPT-4的相關性為88%，Llama2則為83%。治療適當性方面，ChatGPT-4達80%，Llama2為72%。雖然兩者表現不錯，但仍有不適當建議的情況，顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models: Systematic Review and Meta-Analysis.
臨床專業人員與大型語言模型診斷準確度之比較：系統性回顧與統合分析 JMIR Med Inform 2025-04-25

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究，發現LLM診斷準確率雖不錯，但多數研究有偏誤，且準確度還不及醫師。不過，若小心運用，未來LLM有望成為醫療智慧助理。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

Applications of Natural Language Processing in Otolaryngology: A Scoping Review.
自然語言處理在耳鼻喉科的應用：一項範疇性回顧 Laryngoscope 2025-05-01

最新系統性回顧分析166篇研究，發現NLP（像是ChatGPT）在耳鼻喉科的應用越來越多，主要用於臨床決策、病人和醫學生教育、電子病歷優化及數據分析。不過，目前在臨床實務和醫學生訓練等方面的應用還不多，也需要制定更明確的研究指引。 PubMed DOI

The applications of ChatGPT and other large language models in anesthesiology and critical care: a systematic review.
ChatGPT 及其他大型語言模型在麻醉學與重症醫學中的應用：系統性回顧 Can J Anaesth 2025-06-16

這篇系統性回顧發現，大型語言模型像ChatGPT、GPT-4等，已經開始應用在麻醉和重症醫學，包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯，但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師，但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。 PubMed DOI

原始文章

站上相關主題文章列表