Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Diagnostic Accuracy of a Custom Large Language Model on Rare Pediatric Disease Case Reports.
自訂大型語言模型在罕見兒童疾病病例報告中的診斷準確性。 Am J Med Genet A 2024-09-13

診斷罕見兒科疾病相當具挑戰性，因為這些疾病的表現複雜。本研究評估了三種大型語言模型（LLMs）的診斷表現：GPT-4、Gemini Pro，以及一個整合Human Phenotype Ontology的自訂模型（GPT-4 HPO），針對61個罕見疾病進行分析。結果顯示，GPT-4的準確率為13.1%，而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力，但仍需改進以便更好地融入臨床實踐。 PubMed DOI

A Comparative Evaluation of Large Language Model Utility in Neuroimaging Clinical Decision Support.
大型語言模型在神經影像臨床決策支持中的效用比較評估。 J Imaging Inform Med 2024-11-07

這項研究評估了八種公開的大型語言模型（LLMs）在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示，GPT-4表現最佳，提供23個最佳建議，其次是ChatGPT有20個，而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力，並探討了評估其表現的挑戰，具有重要意義。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

Can large language models assist with pediatric dosing accuracy?
大型語言模型能否協助提高兒科劑量的準確性？ Pediatr Res 2025-03-08

在兒科護理中，藥物計算錯誤仍然是一大挑戰。本研究探討大型語言模型（LLMs）如ChatGPT-4o和Claude-3.0在減少這些錯誤的效果，並與經驗豐富的護理人員進行比較。結果顯示，LLMs的準確率達100%，而護理人員為93.14%。此外，LLMs的計算速度也顯著更快。研究建議進一步探索這些模型在醫療環境中的應用潛力，以提升藥物安全性和臨床效率。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.
將標題「Evaluating large language and large reasoning models as decision support tools in emergency internal medicine.」翻譯為繁體中文(zh-TW)如下：「評估大型語言模型與大型推理模型作為急診內科決策支援工具的應用」 Comput Biol Med 2025-05-13

最新研究發現，OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多，診斷和收治判斷準確率都超過九成，甚至在異常檢驗判讀上還拿到滿分。相比之下，Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說，o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據：一項盲態比較分析 Front Digit Health 2025-05-14

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要，Claude在正確性和完整性上表現最好，但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查，目前還不適合單獨用於臨床摘要。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

原始文章

站上相關主題文章列表