Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

Evaluating the Accuracy and Reliability of Large Language Models (ChatGPT, Claude, DeepSeek, Gemini, Grok, and Le Chat) in Answering Item-Analyzed Multiple-Choice Questions on Blood Physiology.
大型語言模型（ChatGPT、Claude、DeepSeek、Gemini、Grok 及 Le Chat）在回答血液生理學題項分析選擇題時之準確性與可靠性評估 Cureus 2025-05-09

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現，結果以Claude最優（正確率95%），DeepSeek和Grok次之（93%），ChatGPT（90%）、Gemini（88%），Le Chat最低（70%）。題目難度和品質對結果沒明顯影響。整體來說，這些AI工具，尤其是Claude、DeepSeek和Grok，能當作醫學教育的輔助，但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

Comparison of Large Language Models' Performance on 600 Nuclear Medicine Technology Board Examination-Style Questions.
大型語言模型在600題核醫技術師國家考試題型上的表現比較 J Nucl Med Technol 2025-05-09

這項研究比較多款大型語言模型（LLM）在核子醫學題目的表現，發現結合檢索增強生成（RAG）的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力，但對複雜指引和影像題還不夠理想，未來還需再優化才能安心用於醫療領域。 PubMed DOI

Can American Board of Surgery in Training Examinations be passed by Large Language Models? Comparative assessment of Gemini, Copilot, and ChatGPT.
大型語言模型能通過美國外科醫學會住院醫師訓練考試嗎？Gemini、Copilot 與 ChatGPT 的比較性評估 Am Surg 2025-05-12

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示，ChatGPT和Copilot的正確率都接近八成，表現差不多；但Gemini的正確率只有五成多，尤其在定義題和臨床案例題上更弱。總結來說，Gemini的準確度明顯落後。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Performance of large language models on family medicine licensing exams.
大型語言模型在家庭醫學執照考試中的表現 Fam Pract 2025-06-09

這項研究發現，多款主流大型語言模型在以色列基層醫療執照考試中表現不錯，尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%，解釋也多半正確有邏輯，但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力，但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

The applications of ChatGPT and other large language models in anesthesiology and critical care: a systematic review.
ChatGPT 及其他大型語言模型在麻醉學與重症醫學中的應用：系統性回顧 Can J Anaesth 2025-06-16

這篇系統性回顧發現，大型語言模型像ChatGPT、GPT-4等，已經開始應用在麻醉和重症醫學，包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯，但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師，但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。 PubMed DOI

原始文章

站上相關主題文章列表