原始文章

這項研究探討了語言選擇和翻譯品質對GPT-4在放射學診斷問題回答準確性的影響。分析了146個來自日本放射學考試的問題,並由兩位認證放射科醫師提供答案。結果顯示,GPT-4在英文翻譯的表現最佳,其次是日文、中文和德文。翻譯品質與正確回答數量有顯著關聯,尤其在英文翻譯表現不如日文時,專業翻譯的問題得分更高。研究強調高品質翻譯對提升GPT-4準確性的重要性,特別是對非母語英語使用者。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5和GPT-4在日本醫師執照考試(JMLE)中的表現,結果顯示GPT-4比GPT-3.5更準確,尤其在各種問題上表現更好。GPT-4在困難和特定疾病問題上也表現出色,符合JMLE的及格標準。這顯示GPT-4可能成為非英語國家醫學教育和臨床支援的實用工具。 PubMed DOI

研究評估大型語言模型在臨床放射學問題上的表現,使用JRBE考題,發現GPT-4比其他模型表現更好。GPT-4在簡單問題、單一答案及核醫學方面表現優異,顯示在日本放射學領域有應用潛力。 PubMed DOI

研究評估GPT-4在放射學考試中的表現,整體準確率為58.5%,比PGY-3低、比PGY-2高。對正確答案信心高,但在影像問題表現較差。重複問題時25.5%答案不同,但準確性不變。微調未改善表現。研究強調AI模型在放射學的潛力和風險,特別提醒在影像問題上應謹慎使用。 PubMed DOI

研究比較了處理文字和圖像輸入的GPT-4 Turbo with Vision(GPT-4TV)與僅處理文字輸入的GPT-4 Turbo(GPT-4 T)在回答日本放射診斷醫學會考試(JDRBE)問題的表現。結果顯示,兩者準確度差不多,但放射科醫師對GPT-4TV的可信度較低。總結來說,加入圖像輸入的GPT-4TV對於JDRBE問題的回答並沒有明顯提升。 PubMed DOI

這項研究評估了不同視覺語言模型(VLMs)在放射學診斷的準確性,特別針對日本的專業考試。比較的模型包括GPT-4o、GPT-4V和Claude-3。分析了383個JDR考題、300個JNM考題和322個JIR考題。結果顯示,GPT-4o在所有考試中表現最佳,JDR得分49%、JNM得64%、JIR得43%。對於有圖片的問題,JDR得48%、JNM得59%、JIR得34%。統計分析顯示,GPT-4o在大多數評估中顯著優於其他模型,顯示其在放射學診斷中的潛力。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究評估了GPT-4 V在日本國家臨床工程師執照考試的表現,分析了2012至2023年的2,155道題目。該模型的平均正確率為86.0%,在臨床醫學和基礎醫學領域特別高(≥ 90%)。不過,在醫療設備安全管理等領域的表現較差,正確率僅64.8%到76.5%。涉及圖形和計算的問題準確率更低,特別是需要了解日本工業標準的問題,正確率僅31.0%。研究指出ChatGPT在圖像識別和理解特定標準方面的局限性,使用時需謹慎。 PubMed DOI

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現,結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數(70.2%對58.4%)。不過,在臨床推理部分,GPT-4o的得分低於平均及及格分數(52.9%對66.1%)。該模型在超聲影像問題上表現優異(87.5-100%),但在影片問題上則較差(50.6%)。整體來看,這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現,重點在於準確性和醫學知識解析能力。問題依難度和類型分類,包括一般和臨床部分,以及單選和多選題。GPT-4.0的正確回答率達80.4%,顯示出合格的表現,但不同問題的準確性有顯著差異。研究結果顯示,雖然GPT-4.0在醫學教育和研究中有價值,但仍需大量醫學數據來提升準確性,整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI