OpenMedLM: prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models.
OpenMedLM: 在醫學問答中，prompt engineering 可以優於對開源大型語言模型進行微調。 Sci Rep 2024-06-19

OpenMedLM是一個開源的醫學語言模型，在醫學基準測試中表現優異，且無需大量微調。透過提示策略，OpenMedLM在三個醫學語言模型基準測試中取得領先地位，超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力，同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Large language models for error detection in radiology reports: a comparative analysis between closed-source and privacy-compliant open-source models.
大型語言模型在放射科報告中的錯誤檢測：封閉源與符合隱私的開源模型之間的比較分析。 Eur Radiol 2025-02-20

這項研究探討了符合隱私要求的開源大型語言模型（LLMs）在檢測放射科報告錯誤的有效性，並與商業封閉源模型比較。分析了120份報告，發現封閉源模型（如GPT-4）在錯誤檢測率上優於開源模型，分別為88%和79%。不過，開源模型的處理時間較短，每份報告僅需6秒。研究結論指出，開源模型雖然有效，但準確性尚未達到封閉源模型的水準，未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI

Benchmarking open-source large language models on Portuguese Revalida multiple-choice questions.
開源大型語言模型在葡萄牙 Revalida 多選題上的基準測試。 BMJ Health Care Inform 2025-02-25

這項研究評估了31個大型語言模型（LLMs）在葡萄牙語醫學知識測試中的表現，特別針對巴西國家醫學考試進行分析。比較了23個開源模型和8個專有模型在399道選擇題上的表現。結果顯示，Llama 3 8B的成功率最高為53.9%，而Mixtral 8×7B達63.7%。較大的模型如Llama 3 70B成功率為77.5%。專有模型GPT-4o和Claude Opus表現優異，分別得86.8%和83.8%。有10個模型在Revalida測試中超越人類，但9個模型在提供連貫答案上有困難。整體來看，較大的模型表現較佳，但某些中型模型也表現不俗。 PubMed DOI

ChatGPT's Performance on Portuguese Medical Examination Questions: Comparative Analysis of ChatGPT-3.5 Turbo and ChatGPT-4o Mini.
ChatGPT 在葡萄牙語醫學考試問題上的表現：ChatGPT-3.5 Turbo 與 ChatGPT-4o Mini 的比較分析。 JMIR Med Educ 2025-03-05

ChatGPT的進步對醫學教育產生了顯著影響，透過創新的評估和學習工具，提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示，ChatGPT-4o mini的準確率達65%，超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力，但也提醒需在教師監督下謹慎使用，並需進一步研究。 PubMed DOI

Performance of single-agent and multi-agent language models in Spanish language medical competency exams.
單一模型與多模型語言模型在西班牙語醫學能力考試中的表現 BMC Med Educ 2025-05-07

這項研究比較GPT-4o在西班牙語醫學考試題目上的單一代理和多代理提示策略表現。結果顯示，多代理MDAGENTS策略正確率最高，達89.97%，明顯優於其他方法。不過，簡單的單一代理策略也能解決大部分題目，只有少數情境才需要多代理協作。溫度設定對結果沒什麼影響。整體來說，多代理策略能提升表現，但多數情況下簡單方法就夠用，顯示LLM有潛力成為西語醫療體系的實用工具。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Evaluating Large Language Models in Ptosis-Related inquiries: A Cross-Lingual Study.
重語言模型於Ptosis相關問題的評估：一項跨語言研究 Transl Vis Sci Technol 2025-07-16

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現，發現GPT-4o在英文回答最優，Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢，但臨床應用前還需更多驗證和調整，顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI

原始文章

站上相關主題文章列表