原始文章

這項研究評估了OpenAI最新的語言模型Chat Generative Pre-trained Transformer-4o在成人臨床心臟病自我評估計畫(ACCSAP)的表現。經過測試後,該模型對594個問題的正確回答率為69.2%。在純文本問題上表現較佳(73.9%),但在影像解讀上則較差(55.3%),尤其是心電圖問題得分僅56.5%。雖然模型在醫學影像解讀上顯示出一定能力,但準確性不穩定,特別是沒有文本輔助的影像。總體來看,該模型在醫學教育和臨床決策中仍有潛力,但影像解讀方面的限制明顯。 PubMed DOI


站上相關主題文章列表

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

研究發現ChatGPT-4V在解釋心電圖並回答問題方面表現不錯,準確率達83.87%,但在計數問題上較弱。在臨床應用仍需改進,需要進一步研究。ChatGPT未來或許可協助醫護人員解讀心電圖和進行心血管護理。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在教育患者心臟影像方面的表現。結果顯示,在三次聊天中,ChatGPT-4在正確性和一致性方面優於ChatGPT-3.5。兩者都有超過一半問題回答正確,但仍需改進才能在教育患者心臟影像上更有效。 PubMed DOI

研究評估了ChatGPT在Amboss問題庫的2,377個USMLE Step 1練習問題上的表現。整體準確率為55.8%,顯示問題難度與表現呈反向關係。在血清學問題上表現不錯,但心電圖相關內容表現較差,病理生理學更差。研究強調了進一步瞭解ChatGPT在醫學教育和考試中的能力和限制的重要性。 PubMed DOI

這項研究評估了ChatGPT(3.5和4版本)在心血管醫學問題上的表現,並與內科住院醫師和主治醫師進行比較。結果顯示,ChatGPT-4的準確率為74.5%,優於3.5版本的64.3%。它的表現與內科實習醫師(63.3%)和高年級住院醫師(63.3%)相當,但仍低於心臟科主治醫師的85.7%。雖然ChatGPT在某些領域顯示潛力,但仍需提升準確性,才能成為醫療專業人員的可靠工具。 PubMed DOI

這項研究評估了ChatGPT-4在小兒心臟病學中解讀多模態影像的能力,針對100道包含心臟超音波、血管造影、X光和心電圖的選擇題進行測試。結果顯示,提供影像時正確率為41%,心電圖的準確率最高(54%),而血管造影最低(29%)。不提供影像時,表現稍降至37%。研究指出,ChatGPT-4在解讀影像的能力有限,強調需進一步訓練才能整合進臨床實踐,並需更多研究探討其臨床推理能力。 PubMed DOI

最近,自然語言處理(NLP)在醫療領域的進展顯著,特別是在數據分析和診斷方面。OpenAI的ChatGPT 4.0被評估在胸部影像診斷的表現,整體準確率達84.9%。它在術語和診斷徵象上表現優異,重症監護和正常解剖的準確率分別為90%和80%。在病理問題上,平均準確率為89.1%,但在某些疾病如肺癌的表現較差。總體來看,ChatGPT 4.0顯示出潛力,但仍需進一步研究以提升其臨床應用的可靠性。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了ChatGPT 3.5在婦產科個人學習回顧(PROLOG)中的表現,主要針對住院醫師的教育效果。結果顯示,ChatGPT在848個非視覺問題中正確率為57.8%,一級問題的表現(60.5%)優於高階問題(56.8%)。但在65個包含視覺資料的問題中,正確率僅有16.9%。由於PROLOG的及格分數是80%,ChatGPT未能達標,顯示其在專業知識和邏輯推理上仍有不足,無法成為可靠的教育工具。 PubMed DOI

這項研究評估了ChatGPT-4在重症醫學的表現,使用的數據來自中國的健康專業技術考試。ChatGPT-4回答了600個問題,成功率達73.5%,超過60%的及格標準,基礎知識的準確率最高,達81.94%。單選題表現(76.72%)優於多選題(51.32%)。雖然它在臨床決策和醫學教育上顯示潛力,但仍需醫療專業人員的監督,以確保準確性和病人安全。 PubMed DOI