原始文章

最近的研究探討大型語言模型(LLMs)在臨床決策和考試問題回答的有效性,特別是視覺語言模型(VLMs)的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示,所有LLMs在文本問題中均達及格,但只有GPT-4在圖像問題中超過及格,表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現,顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在美國胸外科醫學會的胸外科自我教育與自我評估(SESATS)XIII題庫上的表現。測試的模型包括GPT-3.5、GPT-4、Med-PaLM 2和Claude 2。結果顯示,GPT-4的正確回答比例達87.0%,明顯優於GPT-3.5的51.8%。GPT-4在各子專科的準確率介於70.0%到90.0%之間,顯示出LLMs在外科教育和訓練方面的潛力,對醫學教育和病人護理有美好的前景。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是OpenAI的GPT-4 1106和Google的Bard Gemini Pro,在影像醫學問題上的表現。分析1,070個來自AMBOSS平台的問題後,發現GPT-4 1106的準確率為56.9%,高於Bard的44.6%。不過,GPT-4 1106未回答的問題比例較高,達16.1%。若只看已回答的問題,GPT-4 1106的準確率提升至67.8%。兩者在德語表現優於英語,學生的準確率達94.5%,顯著超越這兩個AI模型。研究顯示,這些LLMs在醫學教育中有潛力,但仍需優化以應對多語言環境的挑戰。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

最近的研究顯示,GPT-4V在醫學影像的解讀上有不錯的潛力,尤其在美國醫學執照考試中表現優異,Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過,雖然正確答案的解釋質量接近人類專家,但錯誤答案的解釋常常不準確,顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰,需要多次提示才能給出準確解釋。因此,在將GPT-4V應用於臨床前,仍需進一步評估其影像解釋能力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Google Gemini,在神經外科考試影像問題上的表現。共分析379個問題,結果顯示GPT-4o的正確率為51.45%,明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出,且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高,但兩者在影像問題上的表現仍不及傳統考試,顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI