原始文章

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI


站上相關主題文章列表

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例,結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4,而GPT-4在特異性和陽性預測值上則表現更佳。總體來看,GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)在放射學教育中的有效性,與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行,56名一年級醫學影像學生參加了兩場考試,分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似,且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜,但整體來看,AI能生成與人類專家相當的題目,顯示其在健康教育評估中的潛力。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

這項研究發現,ChatGPT-4在回答FRCR Part 1放射解剖學題目時,辨認解剖結構的正確率很低(僅4–7.5%),但能正確判斷影像檢查方式。對於影像中有出現但非指定結構的辨識,表現較好(超過五成接近正確),但左右判斷仍有困難(約四成正確)。整體來說,ChatGPT-4目前在放射解剖影像判讀上還有很大進步空間。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%,跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時,GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

最新研究比較五款主流AI聊天機器人在歐洲放射學文憑考題上的表現,發現Claude 3.5 Sonnet在正確率、自信和一致性都拿下第一,ChatGPT-4o緊追在後。這些AI整體表現甚至超越人類考生,但各自的穩定度和自信還是有差異,提醒大家在臨床或教育等重要場合使用時要特別小心。 PubMed DOI