Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Assessment of large language models in medical quizzes for clinical chemistry and laboratory management: implications and applications for healthcare artificial intelligence.
大型語言模型在臨床化學和實驗室管理醫學測驗中的評估：對醫療人工智慧的影響與應用。 Scand J Clin Lab Invest 2025-02-19

這項研究評估了九個大型語言模型（LLMs）在醫學領域的表現，特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗，結果顯示GPT-4o的準確率最高，達81.7%，其次是GPT-4 Turbo（76.1%）和Claude 3 Opus（74.3%）。這些模型在數字和計算任務上表現優異，顯示出它們能有效運用現有知識協助醫療專業人員進行決策，未來有潛力成為醫療輔助工具。 PubMed DOI

Preliminary analysis of the impact of lab results on large language model generated differential diagnoses.
實驗室結果對大型語言模型生成的鑑別診斷影響的初步分析。 NPJ Digit Med 2025-03-19

這項研究探討實驗室檢測結果對大型語言模型（LLMs）在醫學鑑別診斷（DDx）準確性的影響。研究人員從50個病例報告中創建臨床小插曲，評估了五個LLMs的表現，包括GPT-4、GPT-3.5等。結果顯示，加入實驗室數據可提高DDx準確性多達30%。其中，GPT-4表現最佳，Top 1準確率達55%，寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著，這些模型能有效解讀肝功能和代謝面板等檢測結果。 PubMed DOI

Comprehensive testing of large language models for extraction of structured data in pathology.
大型語言模型在病理學中結構化數據提取的綜合測試。 Commun Med (Lond) 2025-03-31

病理科部門產生大量非結構化數據，主要以自由文本的診斷報告形式存在，轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務，但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集，評估了六個語言模型的提取能力。研究顯示，開源模型在提取結構化數據方面的精度與專有模型相當，且具成本效益和隱私保護潛力，為醫療機構提供了重要見解。 PubMed DOI

Evaluation of Six Large Language Models for Clinical Decision Support: Application in Transfusion Decision-making for RhD Blood-type Patients.
六種大型語言模型於臨床決策支援之評估：應用於RhD血型患者輸血決策 Ann Lab Med 2025-04-28

這項研究比較六種大型語言模型在韓國醫療體系回答RhD血型輸血問題的表現，GPT-4o雖然表現最好，但準確度還是輸給人類專家。即使用提示工程也只能小幅提升結果。未來LLMs（尤其是GPT-4o）有機會輔助臨床決策，但還無法完全取代醫師。 PubMed DOI

LLM-CGM: A Benchmark for Large Language Model-Enabled Querying of Continuous Glucose Monitoring Data for Conversational Diabetes Management.
LLM-CGM：用於對話式糖尿病管理之大型語言模型查詢連續血糖監測數據的基準 Pac Symp Biocomput 2025-04-29

這篇研究探討大型語言模型（LLM）如何幫助病人解讀連續血糖監測（CGM）數據，協助糖尿病管理。作者建立了開源的CGM數據問答基準，評估多種LLM表現，並指出LLM在解讀穿戴式健康數據上還有進步空間，這些方法也能應用到其他穿戴裝置。 PubMed DOI

PGxQA: A Resource for Evaluating LLM Performance for Pharmacogenomic QA Tasks.
PGxQA：用於評估大型語言模型在藥物基因體學問答任務表現的資源 Pac Symp Biocomput 2025-04-29

藥物基因學有助推動個人化醫療，但因醫師和病患對相關知識不足，推廣進展緩慢。雖然像GPT-4這類AI聊天機器人有潛力協助縮短知識落差，但目前仍常出錯，臨床應用有風險。作者設計測驗評估AI回答藥物基因學問題的能力，發現新一代模型雖進步，但還不夠穩定，暫時不適合直接用在臨床。這套評測標準未來可作為改進AI的參考。 PubMed DOI

Evaluating the Accuracy and Reliability of Large Language Models (ChatGPT, Claude, DeepSeek, Gemini, Grok, and Le Chat) in Answering Item-Analyzed Multiple-Choice Questions on Blood Physiology.
大型語言模型（ChatGPT、Claude、DeepSeek、Gemini、Grok 及 Le Chat）在回答血液生理學題項分析選擇題時之準確性與可靠性評估 Cureus 2025-05-09

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現，結果以Claude最優（正確率95%），DeepSeek和Grok次之（93%），ChatGPT（90%）、Gemini（88%），Le Chat最低（70%）。題目難度和品質對結果沒明顯影響。整體來說，這些AI工具，尤其是Claude、DeepSeek和Grok，能當作醫學教育的輔助，但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

原始文章

站上相關主題文章列表