原始文章

這項研究比較 GPT-4o 和 LLaMA 3.1 405B 在葡萄牙語醫學考題的表現,發現 GPT-4o 的正確率普遍高出 7–11%,尤其在 chain-of-thought 提示下表現最佳。兩者在小兒科表現較好,外科和精神科較差。GPT-4o 的答案分布較穩定,LLaMA 3.1 則有偏誤。整體來說,封閉原始碼模型目前表現較佳,但開放原始碼模型未來有機會追上。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI

這項研究評估了31個大型語言模型(LLMs)在葡萄牙語醫學知識測試中的表現,特別針對巴西國家醫學考試進行分析。比較了23個開源模型和8個專有模型在399道選擇題上的表現。結果顯示,Llama 3 8B的成功率最高為53.9%,而Mixtral 8×7B達63.7%。較大的模型如Llama 3 70B成功率為77.5%。專有模型GPT-4o和Claude Opus表現優異,分別得86.8%和83.8%。有10個模型在Revalida測試中超越人類,但9個模型在提供連貫答案上有困難。整體來看,較大的模型表現較佳,但某些中型模型也表現不俗。 PubMed DOI

ChatGPT的進步對醫學教育產生了顯著影響,透過創新的評估和學習工具,提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示,ChatGPT-4o mini的準確率達65%,超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力,但也提醒需在教師監督下謹慎使用,並需進一步研究。 PubMed DOI

這項研究比較GPT-4o在西班牙語醫學考試題目上的單一代理和多代理提示策略表現。結果顯示,多代理MDAGENTS策略正確率最高,達89.97%,明顯優於其他方法。不過,簡單的單一代理策略也能解決大部分題目,只有少數情境才需要多代理協作。溫度設定對結果沒什麼影響。整體來說,多代理策略能提升表現,但多數情況下簡單方法就夠用,顯示LLM有潛力成為西語醫療體系的實用工具。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究比較多種大型語言模型在回答眼瞼下垂相關問題的表現,發現GPT-4o在英文回答最優,Qwen2.5則在中文表現突出。雖然AI有助於病人衛教和醫師諮詢,但臨床應用前還需更多驗證和調整,顯示AI有提升多語言醫療溝通的潛力。 PubMed DOI