Performance Assessment of Large Language Models in Medical Consultation: A Comparative Study.
大型語言模型在醫療諮詢中的表現評估：一項比較研究。 JMIR Med Inform 2025-01-07

這項研究探討生成式人工智慧，特別是大型語言模型（LLMs）在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應，並使用PubMedQA和QuoraQA數據集，結果顯示最新的模型，尤其是GPT-3.5和Llama2，在生成醫療回應方面表現優異。研究指出，升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識，目的是提升AI驅動的醫療諮詢系統，特別是在心理健康領域的應用。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Large Language Models in Biochemistry Education: Comparative Evaluation of Performance.
生物化學教育中的大型語言模型：性能的比較評估。 JMIR Med Educ 2025-04-10

最近在人工智慧（AI）方面的進展，特別是大型語言模型（LLMs），正在改變醫學領域。本研究比較了四款先進的LLM聊天機器人—Claude、GPT-4、Gemini和Copilot—在生物化學課程中的表現。使用200道USMLE風格的多選題進行評估，結果顯示這些聊天機器人平均正確率為81.1%，超過學生8.3%。Claude的準確率最高，達92.5%。研究指出，這些AI模型在醫學教育中可能具備特定優勢，特別是在生物化學領域，顯示AI在醫學訓練中的潛力。 PubMed DOI

The role of artificial intelligence in medical education: an evaluation of Large Language Models (LLMs) on the Turkish Medical Specialty Training Entrance Exam.
人工智慧在醫學教育中的角色：大型語言模型（LLMs）於土耳其醫學專科訓練入學考試的評估 BMC Med Educ 2025-04-25

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現，ChatGPT 4正確率最高（88.75%），Llama 3 70B（79.17%）、Gemini 1.5 Pro（78.13%）次之，Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強，顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用，其他兩款則還需加強。 PubMed DOI

Evaluating the Accuracy and Reliability of Large Language Models (ChatGPT, Claude, DeepSeek, Gemini, Grok, and Le Chat) in Answering Item-Analyzed Multiple-Choice Questions on Blood Physiology.
大型語言模型（ChatGPT、Claude、DeepSeek、Gemini、Grok 及 Le Chat）在回答血液生理學題項分析選擇題時之準確性與可靠性評估 Cureus 2025-05-09

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現，結果以Claude最優（正確率95%），DeepSeek和Grok次之（93%），ChatGPT（90%）、Gemini（88%），Le Chat最低（70%）。題目難度和品質對結果沒明顯影響。整體來說，這些AI工具，尤其是Claude、DeepSeek和Grok，能當作醫學教育的輔助，但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

Evaluating Large Language Models on American Board of Anesthesiology-style Anesthesiology Questions: Accuracy, Domain Consistency, and Clinical Implications.
以美國麻醉科醫學會（American Board of Anesthesiology）風格麻醉學試題評估大型語言模型：準確性、領域一致性與臨床意涵 J Cardiothorac Vasc Anesth 2025-06-15

五款主流大型語言模型（如ChatGPT-4、Gemini等）在麻醉學考題測試中都拿到高分，彼此表現差不多，顯示未來有望協助醫學教育和臨床決策。不過，還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

原始文章

站上相關主題文章列表