原始文章

針對視網膜和玻璃體疾病的多選題評估中,Bing的正確回答率最高,達76.1%,而ChatGPT和Bard則各為60.9%。不過,三者在答案準確性上並無顯著差異(P = 0.206)。這顯示雖然AI聊天機器人能提供相關醫療資訊,但使用者仍需謹慎,因為這些資訊不一定總是正確的。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究評估了三款人工智慧聊天機器人—ChatGPT、Bing 和 Bard—在神經眼科疾病方面的知識。研究使用了美國眼科醫學會2022-2023年神經眼科書籍中的40個問題,結果顯示:ChatGPT的正確率為52.5%、Bing為55%、Bard為65%。統計分析顯示它們之間的表現差異不顯著(P = 0.489)。雖然這些AI能快速提供資訊,但回答不一定準確,因此使用時需謹慎。 PubMed DOI

一項研究評估了聊天機器人GPT-4o和Gemini Advanced在視網膜疾病診斷的能力,分析了50個OCT/OCTA案例。結果顯示,ChatGPT-4o正確診斷了31個案例(62%),明顯優於Gemini Advanced的16個(p=0.0048)。Gemini Advanced在24%的案例中未能提供回應,且兩者都經常誤診黃斑水腫。ChatGPT-4o在外科視網膜問題和醫療視網膜疾病的診斷準確率較高。總體而言,ChatGPT-4o在影像診斷上表現更佳,但仍有改進空間。 PubMed DOI

這項研究評估了 ChatGPT、Bard 和 Copilot 在回答圓錐角膜患者問題的效果,並與美國眼科學會(AAO)網站進行比較。研究分析了二十個問題的準確性、可理解性、可行性和可讀性。結果顯示,Bard 在準確性和可理解性上表現最佳,超過了 ChatGPT、Copilot 和 AAO 網站;而 Bard 和 ChatGPT 的回應在可行性上也優於 AAO 網站,但 AAO 的可讀性得分較高。整體而言,研究指出聊天機器人能有效支持圓錐角膜患者教育,可能減少不必要的就診,並提升患者認知。 PubMed DOI

這項研究評估了七款熱門聊天機器人生成的白內障手術病人資訊手冊的品質,包括Bing AI、ChatGPT 3.5、ChatGPT 4、ChatSonic、Google Bard、Perplexity和Pi。研究發現,ChatSonic的回應品質最佳,其次是Bing AI和Perplexity,而ChatGPT 3.5的表現最差,還包含錯誤資訊。Bing AI、ChatSonic和Perplexity提供了可靠的參考資料,顯示出在醫療資訊提供上,聊天機器人的品質和可靠性差異明顯,特別是ChatSonic在眼科病人教育方面的潛力。 PubMed DOI

這項研究評估了ChatGPT-4和Bing Chat對34個青光眼常見問題的回應,重點在適當性、準確性和可讀性。結果顯示,ChatGPT-4的適當回應比例為88.2%,高於Bing Chat的79.2%。兩者在準確性上差異不大,ChatGPT-4略高(3.86),Bing Chat為3.70。可讀性方面,兩者的回應對一般美國成年人來說都較難理解,ChatGPT-4的字數平均為316.5,明顯高於Bing Chat的61.6字。總體而言,雖然兩者都提供適當回應,但ChatGPT-4的回應較複雜且可讀性較低。 PubMed DOI

春季角結膜炎(VKC)是一種常見的過敏性眼病,病人教育對於管理此病至關重要。研究評估了 Google Gemini Advanced 聊天機器人在回答與 VKC 相關問題的準確性和可靠性。結果顯示,該 AI 工具的回應準確率高達86.4%,且評估者間一致性良好(Cronbach's alpha = 0.92)。雖然在一般查詢中表現優異,但在複雜治療指導上仍需改進。總體而言,Google Gemini Advanced 是一個可靠的病人教育工具,但專家監督仍然重要,未來需進一步研究以提升其臨床應用能力。 PubMed DOI

這項研究評估了多種人工智慧模型在眼科疾病診斷的表現,包括DeepSeek。研究分析了53份來自愛荷華大學的病例報告,並將其輸入四個AI系統進行比較。結果顯示,ChatGPT-01的準確率最高,達84.9%,特別是在神經眼科方面表現優異。DeepSeek和ChatGPT-4.0的準確率約79.2%,而Qwens最低,僅64.2%。研究強調AI在眼科的輔助潛力,並建議結合人類專家的判斷以提升診斷準確性。 PubMed DOI

這項研究發現,ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯,平均得分64.4%,但在單一最佳答案題型只拿到28.4%,明顯輸給人類考生。它在資訊查找上較強,但知識整合能力較弱。整體來說,ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現,Copilot正確率最高(74%),也最容易閱讀。雖然這些AI對學習有幫助,但答案不一定完全正確,使用時還是要多加留意。 PubMed DOI