原始文章

一項研究評估了聊天機器人GPT-4o和Gemini Advanced在視網膜疾病診斷的能力,分析了50個OCT/OCTA案例。結果顯示,ChatGPT-4o正確診斷了31個案例(62%),明顯優於Gemini Advanced的16個(p=0.0048)。Gemini Advanced在24%的案例中未能提供回應,且兩者都經常誤診黃斑水腫。ChatGPT-4o在外科視網膜問題和醫療視網膜疾病的診斷準確率較高。總體而言,ChatGPT-4o在影像診斷上表現更佳,但仍有改進空間。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI

這項研究評估了ChatGPT(包含GPT-3.5和GPT-4)在診斷神經眼科疾病的準確性,使用了22個病例。結果顯示,GPT-3.5的正確診斷率為59%,而GPT-4提升至82%。相比之下,兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5,顯示出其在臨床診斷上的潛力,但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變(OPMLs)的準確性,特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示,GPT 4o在文本診斷中表現最佳,正確回答27個案例,其次是GPT 4.0、3.5和Gemini。在影像識別方面,GPT 4o也優於Gemini。不過,這些模型的準確性仍未達到專家水平,顯示出中等到良好的協議程度。研究指出,雖然人工智慧在診斷OPMLs上有潛力,但整合進臨床實踐時需謹慎。 PubMed DOI

這項研究評估了ChatGPT-4在解讀視野測試的有效性,對於診斷青光眼等眼科疾病非常重要。分析了30份視野測試報告,結果顯示ChatGPT-4在識別測試名稱、模式和全球視野指數方面表現優異,準確率分別為100%、90%和96.7%。不過,在解讀偏差圖和灰階圖的準確率較低,分別為66.7%和30%。此外,正確分類測試為「正常」或提出診斷建議的成功率僅有33.3%。這顯示出ChatGPT-4在數據解讀上有潛力,但在複雜的視覺解釋和診斷建議上仍有待加強。 PubMed DOI

這項研究評估了ChatGPT在處理早產兒視網膜病(ROP)案例時的準確性,並與臨床醫師進行比較。參與者包括13位醫師,涵蓋經驗較少的訓練生和資深專家,針對10個案例進行評估。結果顯示,ChatGPT的準確率達90%,超過訓練生的77.5%,而專家的準確率為96%。臨床醫師與ChatGPT的回應一致性高,Cohen's kappa值為0.80,顯示ChatGPT在ROP案例中可作為有價值的工具,若能優化提示,準確性可能進一步提升。 PubMed DOI

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現,包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告,並將其輸入四個AI系統進行比較。結果顯示,ChatGPT-01的準確率最高,達84.9%,特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%,而Qwens最低,僅64.2%。研究強調AI在眼科的輔助潛力,並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力,並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言,準確率為57.7%。錯誤分類率在不同子專科中差異顯著,眼整形的錯誤率最高。評估指標顯示,ChatGPT生成的引言與人類撰寫的並無顯著差異,近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步,未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

這項研究用22個神經眼科病例,比較ChatGPT(GPT-3.5和GPT-4)和兩位專科醫師的診斷能力。GPT-3.5正確率59%,GPT-4有82%,醫師則是86%。GPT-4的表現已經接近專科醫師,顯示AI有潛力協助診斷複雜眼腦疾病,尤其在缺乏專科醫師的地區。不過,臨床應用前還需要更多驗證安全性與可靠性。 PubMed DOI