原始文章

本研究評估了六款流行聊天機器人(ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity)在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分(GQS)指標進行評估,結果顯示大部分網站的責任性較低,且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳,顯示出較高的可靠性和質量,但仍需改善以符合病人的健康素養需求。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答眼部症狀問題的表現,發現ChatGPT-4.0最準確,明顯優於其他。三者都很全面,但自我意識有限。研究指出ChatGPT-4.0在回答正確和全面性上有潛力,但臨床應用前仍需進一步驗證。 PubMed DOI

研究比較了三個大型語言模型(ChatGPT-3.5、ChatGPT-4和Google Gemini)在分析視網膜脫落病例並提出手術計劃的表現。經過50個病例的分析後發現,ChatGPT-4與專家外科醫師的意見最接近,ChatGPT-3.5次之,Google Gemini表現最差。ChatGPT模型也獲得了比Google Gemini更高的全球品質分數。ChatGPT-4是唯一建議採用聯合晶體玻璃切割手術方法的模型。總體而言,ChatGPT模型提供了比Google Gemini更準確和精確的建議。 PubMed DOI

研究發現AI聊天機器人(ChatGPT-4、Bard和Bing)提供的青光眼資訊與美國眼科學會(AAO)的資料有差異。ChatGPT回答最全面,但AAO更準確。AI聊天機器人仍需改進才能成為可靠資訊來源,醫護人員在討論青光眼時應留意這些限制。 PubMed DOI

這項研究評估了大型語言模型(LLM)ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題,並由三位專家評分。結果顯示,ChatGPT的平均得分為3.29,整體表現良好,但有29.2%的回應得分低於3分。經過自我修正後,得分從2.96提升至3.58,滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力,但仍需更多研究來驗證其應用。 PubMed DOI

斜視是常見的眼科疾病,病人教育對於知情決策很重要。本研究比較了三個AI聊天機器人(ChatGPT、Bard、Copilot)和一個可靠網站(AAPOS)在回答斜視相關問題的表現。結果顯示,AAPOS在準確性上表現最佳,其次是Bard、Copilot和ChatGPT。Bard在可理解性和可行性方面得分最高,而AAPOS則在可讀性上最容易理解。情感分析顯示,Bard和Copilot在病人教育上有潛力,但AAPOS在準確性和可讀性上仍優於這些聊天機器人。 PubMed DOI

這項研究比較了AI聊天機器人(ChatGPT和Google Gemini)生成的病患教育材料與傳統病患資訊手冊(PILs)在眼科手術局部麻醉方面的效果。專家評估發現,雖然AI提供的語言較簡單且易懂,但傳統PILs在完整性和可讀性上表現更佳。統計分析顯示,ChatGPT在準確性和完整性上稍勝於Google Gemini,但兩者都不及PILs。值得一提的是,Google Gemini的情感語調最為正面。研究結果顯示,AI聊天機器人可作為病患教育的輔助工具,幫助提升病患的理解與決策能力。 PubMed DOI

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究評估了ChatGPT(OpenAI)對角膜圓錐症常見問題的回答準確性,因為患者對此病症可能不太了解。結果顯示,ChatGPT提供的資訊大部分是正確的,但也有一些小錯誤。不過,回答的複雜性需要較高的閱讀能力,這可能讓許多患者難以理解。因此,對於角膜圓錐症患者來說,提供更易懂的資訊是非常重要的。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜(KCN)相關問題的表現。研究者提出五十個問題,並由三位眼科醫生評分。結果顯示,ChatGPT-4 的表現最佳,100% 的回答得分在 3 分以上,且有 74% 的回答獲得「強烈同意」。相比之下,Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高,但可讀性較低,整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT-3.5和Google Bard,提供的青光眼手術資訊的質量與可讀性。研究發現,ChatGPT-3.5的適當回答率高達96%,而Google Bard則為68%。不過,在可讀性方面,Google Bard的回答更易於理解,Flesch可讀性評分顯示其得分為57.6,遠高於ChatGPT-3.5的22.6。這顯示出準確性與可讀性之間的權衡,強調了清晰且準確的醫療資訊對患者的重要性,並呼籲進一步研究AI工具在醫療領域的有效性。 PubMed DOI