原始文章

這項研究發現,ChatGPT-4o 和 Claude 3.5 Sonnet 在解讀未標註解剖圖的正確率都只有中等,差異不大。雖然 ChatGPT o1-preview 當 AI 評分員時,和專家評分有不錯的一致性,但目前這些 AI 還不夠穩定,暫時不適合直接用在解剖學教學。不過,AI 評分助手在教育研究上有發展潛力,未來還需要再改進。 PubMed DOI


站上相關主題文章列表

這篇回顧研究探討了ChatGPT在解剖學教育中的角色,分析了九項相關研究,涵蓋定量與定性研究。主要發現包括:七項為定量研究,四項與其他平台或人類回應比較,整體表現較弱,特別是在詳細答案和科學準確性上。儘管如此,ChatGPT在幫助學生理解解剖概念上顯示出潛力。未來隨著AI進步,可能會改善其在教育中的應用,但目前尚不適合廣泛使用。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64,結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好,準確率達0.88,對腺癌檢測的敏感性也很高。整體來看,GPT-4的表現與病理住院醫師相當,顯示其作為輔助工具的潛力。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時,表現遠不如專業放射科醫師,準確率只有0.23,幾乎無法正確分辨不同等級。結果顯示,目前ChatGPT-4o還不適合用在這類臨床診斷,未來還需要大幅改進。 PubMed DOI

這項研究發現,ChatGPT-4在回答FRCR Part 1放射解剖學題目時,辨認解剖結構的正確率很低(僅4–7.5%),但能正確判斷影像檢查方式。對於影像中有出現但非指定結構的辨識,表現較好(超過五成接近正確),但左右判斷仍有困難(約四成正確)。整體來說,ChatGPT-4目前在放射解剖影像判讀上還有很大進步空間。 PubMed DOI

研究發現,ChatGPT-4和Claude 3都能有效幫助超音波醫師提升考試成績,特別是在基礎知識題目上。資淺醫師用這兩款AI都能進步,ChatGPT-4還能加強專業題表現;資深醫師則是Claude 3的解釋在各類題型都很有幫助。整體來說,兩種AI對考試表現都有明顯助益。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀X光片時,整體正確率約69%,腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確,但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全,但目前準確率還不夠高,還需改進才能真正成為臨床輔助工具。 PubMed DOI

研究發現,ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時,主要診斷正確率低於人類專家(44%比87%),但若加上次要診斷,差距縮小(71%比94%)。雖然準確度還不及專家,但因為速度快又隨時可用,未來有機會成為放射科的輔助工具。 PubMed DOI

這項研究比較三種ChatGPT模型預測手腕X光骨齡和生長階段的準確度,結果都和專家評估高度一致。GPT-o1-pro骨齡預測最準,GPT-4o則在生長階段分類表現最佳。雖然還不能取代臨床判斷,但這些AI工具已展現初步評估的實用性,未來還需持續優化。 PubMed DOI