原始文章

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI


站上相關主題文章列表

最新研究指出,GPT-4V在醫學挑戰中超越了人類醫生,尤其在多選問題上表現更準確。研究還探討了GPT-4V在NEJM圖像挑戰中的表現,包括圖像理解、醫學知識回憶和多模態推理。結果顯示,GPT-4V在多選問題上比人類醫生更準確,即使醫生出錯時也是如此。然而,在圖像理解方面,GPT-4V常提供不完整的解釋。在應用於臨床前,有必要進一步評估其推理能力。 PubMed DOI

這項研究評估了一個名為GPT-4V的多模式大型語言模型在醫學領域中的影像識別能力,方法是測試其在回答日本國家醫學執照考試問題時的表現。研究中向模型呈現了有和沒有相關影像的問題,以觀察視覺信息如何影響其準確性。結果顯示,影像的存在並未顯著提高GPT-4V在回答考試問題時的表現。 PubMed DOI

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現,結果顯示隨著溫度設定提高,準確性也增加。儘管放射科醫師整體表現較佳,尤其在高溫度下,但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-4、GPT-4o 和 Gemini Advanced—在解讀心電圖(ECGs)的表現,並與心臟科醫生及急診醫學專家的表現進行比較。研究結果顯示,心臟科醫生的表現始終優於這些模型,急診醫學專家在常規心電圖評估中也超越了GPT-4o。雖然GPT-4o在某些挑戰性案例中展現潛力,但整體準確性和一致性仍不及人類專家,顯示在臨床應用中使用這些模型存在風險。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在美國胸外科醫學會的胸外科自我教育與自我評估(SESATS)XIII題庫上的表現。測試的模型包括GPT-3.5、GPT-4、Med-PaLM 2和Claude 2。結果顯示,GPT-4的正確回答比例達87.0%,明顯優於GPT-3.5的51.8%。GPT-4在各子專科的準確率介於70.0%到90.0%之間,顯示出LLMs在外科教育和訓練方面的潛力,對醫學教育和病人護理有美好的前景。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI