原始文章

這項研究比較 GPT-4o 和 LLaMA 3.1 405B 在葡萄牙語醫學考題的表現,發現 GPT-4o 的正確率普遍高出 7–11%,尤其在 chain-of-thought 提示下表現最佳。兩者在小兒科表現較好,外科和精神科較差。GPT-4o 的答案分布較穩定,LLaMA 3.1 則有偏誤。整體來說,封閉原始碼模型目前表現較佳,但開放原始碼模型未來有機會追上。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

這項研究評估了ChatGPT 3.5和4o版本在葡萄牙國家住院醫師入學考試的表現,分析了2019至2023年五個考試版本的750道選擇題。結果顯示,ChatGPT 4o的中位數分數為127,顯著高於ChatGPT 3.5的106(p = 0.048),並在兩個版本中進入前1%。ChatGPT 4o的表現也超越了人類考生的中位數,符合醫學專科資格。研究指出,雖然ChatGPT 4o可成為醫學教育的資源,但仍需人類監督以確保臨床安全與準確性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI

這項研究評估了31個大型語言模型(LLMs)在葡萄牙語醫學知識測試中的表現,特別針對巴西國家醫學考試進行分析。比較了23個開源模型和8個專有模型在399道選擇題上的表現。結果顯示,Llama 3 8B的成功率最高為53.9%,而Mixtral 8×7B達63.7%。較大的模型如Llama 3 70B成功率為77.5%。專有模型GPT-4o和Claude Opus表現優異,分別得86.8%和83.8%。有10個模型在Revalida測試中超越人類,但9個模型在提供連貫答案上有困難。整體來看,較大的模型表現較佳,但某些中型模型也表現不俗。 PubMed DOI

ChatGPT的進步對醫學教育產生了顯著影響,透過創新的評估和學習工具,提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示,ChatGPT-4o mini的準確率達65%,超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力,但也提醒需在教師監督下謹慎使用,並需進一步研究。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI