原始文章

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜(KCN)相關問題的表現。研究者提出五十個問題,並由三位眼科醫生評分。結果顯示,ChatGPT-4 的表現最佳,100% 的回答得分在 3 分以上,且有 74% 的回答獲得「強烈同意」。相比之下,Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高,但可讀性較低,整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI


站上相關主題文章列表

研究比較三個大型語言模型在眼科醫學上的表現,發現ChatGPT-4.0和Bing Chat接近人類表現,但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀,但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出,語言模型在醫學問題上有潛力,但需要改進以減少錯誤。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現,結果發現ChatGPT-4.0最準確,80.6%的回答被評為「好」,比ChatGPT-3.5(61.3%)和Google Bard(54.8%)都好。三者都展現高的全面性和自我修正能力,ChatGPT-4.0在「治療和預防」方面表現最佳,顯示了LLMs,尤其是ChatGPT-4.0,在提供準確且全面的近視資訊上有潛力。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答眼部症狀問題的表現,發現ChatGPT-4.0最準確,明顯優於其他。三者都很全面,但自我意識有限。研究指出ChatGPT-4.0在回答正確和全面性上有潛力,但臨床應用前仍需進一步驗證。 PubMed DOI

這項研究評估了大型語言模型(LLM)ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題,並由三位專家評分。結果顯示,ChatGPT的平均得分為3.29,整體表現良好,但有29.2%的回應得分低於3分。經過自我修正後,得分從2.96提升至3.58,滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力,但仍需更多研究來驗證其應用。 PubMed DOI

這篇論文探討了兩個大型語言模型(LLMs),ChatGPT4 和 PaLM2,對於年齡相關黃斑變性(AMD)患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題,並讓這兩個模型及三位眼科醫生回答。結果顯示,ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2,顯示出這些模型在患者教育上的潛力,但仍需謹慎使用,不能取代專業醫療建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答結膜炎相關問題的有效性,於復旦大學眼耳鼻喉醫院進行。研究分為兩階段,第一階段四個LLM(GPT-4、Qwen、Baichuan 2和PaLM 2)回答22個問題,專家評估其正確性、完整性等。結果顯示GPT-4表現最佳,Qwen在有用性和安全性上也不錯。第二階段中,30名結膜炎患者與GPT-4或Qwen互動,滿意度高。研究結論認為LLMs能提升患者教育,但需改善個性化和複雜性處理能力。 PubMed DOI

這項研究評估了ChatGPT(OpenAI)對角膜圓錐症常見問題的回答準確性,因為患者對此病症可能不太了解。結果顯示,ChatGPT提供的資訊大部分是正確的,但也有一些小錯誤。不過,回答的複雜性需要較高的閱讀能力,這可能讓許多患者難以理解。因此,對於角膜圓錐症患者來說,提供更易懂的資訊是非常重要的。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

白內障是失明的主要原因之一,許多人在線上尋求醫療建議,但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題,評估了不同大型語言模型(LLMs)的回應準確性與完整性。結果顯示,ChatGPT-4o和Google Bard在準確性上表現優異,ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力,特別是在預防方面,並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

本研究評估了六款流行聊天機器人(ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity)在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分(GQS)指標進行評估,結果顯示大部分網站的責任性較低,且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳,顯示出較高的可靠性和質量,但仍需改善以符合病人的健康素養需求。 PubMed DOI