原始文章

這項研究評估了ChatGPT-4在類似ARRT認證考試的練習題上的表現,使用了200道選擇題,總共進行了3000次測試。整體準確率為80.56%,文字型問題表現較佳(86.3%),影像型問題則較差(45.6%),且影像問題的回答時間較長。不同領域的表現差異明顯,安全性72.6%、影像製作70.6%、病人護理67.3%、程序53.4%。研究顯示ChatGPT-4在ARRT題庫上表現不錯,但仍需進一步研究與實際考試結果的關聯,影像處理的進步對教育應用也很重要。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在放射學考試中表現不錯,尤其是處理較簡單的問題。但對於較複雜的問題,表現就稍微差一些。在影像辨識、計算和概念運用上有困難,但處理臨床管理問題時表現不錯。儘管沒有特別訓練,ChatGPT展現出在放射學教育上的潛力。 PubMed DOI

人工智慧的應用,特別是ChatGPT由GPT-3.5支援,在放射學和核醫學領域引起了學術誠信的疑慮。研究指出,ChatGPT在書面任務表現不佳,缺乏深度和洞察力。雖然在一般測驗中表現較好,但容易造成作弊風險。雖然對於基礎學習有幫助,但在學術誠信和深度洞察方面仍有限制。 PubMed DOI

研究發現ChatGPT 4.0在放射學診斷測驗中整體準確率為57.86%,不同部位準確率有差異,頭頸部最高。結論指出,人工智慧模型或許可提升放射學診斷能力,對病患照護及醫學教育有正面影響。 PubMed DOI

ChatGPT是一種AI工具,能像人類一樣產生文字。最近的研究顯示,ChatGPT在英國放射學考試中表現優異,顯示AI在醫學培訓中有潛力,尤其在臨床放射學等領域。 PubMed DOI

研究探討了ChatGPT(GPT-4)在加拿大醫學放射技術協會(CAMRT)的放射技術、MRI、核子醫學和輻射治療認證考試中的表現。ChatGPT每次參加考試都重複進行五次,並根據問題類型和學科對其表現進行了分析。ChatGPT通過了考試,但在不同類型的問題上表現不同,對知識問題的表現最佳,對批判性思考問題的表現最差。在多次嘗試中,ChatGPT的回答之間存在著相當高的一致性至幾乎完美的一致性。該研究顯示,ChatGPT能夠通過放射技術師和治療師的認證考試,但在不同學科之間表現有所不同。未來研究應考慮在評估ChatGPT在標準化測試中的表現時使用重複測量。 PubMed DOI

這項研究評估了ChatGPT在腫瘤學考試問題上的準確性,使用了單次學習的方法。研究中將600道來自國家放射腫瘤學在職考試的選擇題輸入到ChatGPT 4o和3.5中。結果顯示,ChatGPT 4o的正確率為72.2%,而3.5則為53.8%。在不同問題類別中,特別是關鍵研究和治療建議方面,ChatGPT的表現較弱。儘管有些限制,最新版本的ChatGPT顯示出顯著改進,未來在腫瘤學醫學訓練和決策中可能成為有價值的資源。 PubMed DOI

這項研究評估了ChatGPT-4o在模擬歐洲介入放射學委員會(EBIR)考試的表現,正確率達67.0%。GPT-4o還為醫學生和EBIR考生生成不同難度的考題。四位參與者的表現顯示,醫學生在學生級別考題得分46.0%,EBIR持有者在學生級別得74.0%。所有參與者對學生級別考題的正確回答率在82.0%至92.0%之間,顯示其訓練效果良好,且僅有0.3%的考題被認為不合理。總體來看,GPT-4o在模擬EBIR考試及生成考題方面表現出色。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI

這項研究評估了GPT-4o在歐洲放射學委員會考試中的表現,結果顯示它在選擇題和短案例問題上超過了平均放射科醫生的分數(70.2%對58.4%)。不過,在臨床推理部分,GPT-4o的得分低於平均及及格分數(52.9%對66.1%)。該模型在超聲影像問題上表現優異(87.5-100%),但在影片問題上則較差(50.6%)。整體來看,這項研究顯示大型語言模型如GPT-4o在協助放射科醫生方面的潛力。 PubMed DOI