原始文章

這項研究評估了四個大型語言模型(LLMs)在美國胸外科醫學會的胸外科自我教育與自我評估(SESATS)XIII題庫上的表現。測試的模型包括GPT-3.5、GPT-4、Med-PaLM 2和Claude 2。結果顯示,GPT-4的正確回答比例達87.0%,明顯優於GPT-3.5的51.8%。GPT-4在各子專科的準確率介於70.0%到90.0%之間,顯示出LLMs在外科教育和訓練方面的潛力,對醫學教育和病人護理有美好的前景。 PubMed DOI


站上相關主題文章列表

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

研究發現GPT-4在回答外科問題時比GPT-3.5表現更好,準確率分別為64.4%和53.3%。不同外科專業領域的表現有差異,有些領域表現優秀,有些則較弱。研究指出語言模型在解答外科問題上有潛力,但需要針對性改進和持續更新以確保應用的準確性。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

大型語言模型,如GPT-3.5、GPT 4.0和Bard,被測試在皇家外科醫師學院院士資格考試(MRCS)的模擬考試中。這些模型的整體準確率範圍從65.67%到71.67%,其中GPT 4.0是唯一通過70%標準的。研究發現,在不同的考試部分中,這三個模型的表現沒有顯著差異。 PubMed DOI

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現,結果發現GPT-4得分最高,達100%,Claude次之,接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力,呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

這項研究測試了不同大型語言模型在回答口腔顎面外科多重選擇題時的準確度。這些模型的平均得分為62.5%,其中GPT-4表現最佳,達到76.8%。在各種問題類別中,模型的表現存在顯著差異。雖然這些模型在教學上可能有幫助,但在臨床決策之前,建議應謹慎使用,直到進一步發展和驗證。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI