Performance of Generative Large Language Models on Ophthalmology Board-Style Questions.
生成式大型語言模型在眼科醫學委員會風格問題上的表現。 Am J Ophthalmol 2023-12-14

研究比較三個大型語言模型在眼科醫學上的表現，發現ChatGPT-4.0和Bing Chat接近人類表現，但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀，但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出，語言模型在醫學問題上有潛力，但需要改進以減少錯誤。 PubMed DOI

Benchmarking large language models' performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard.
大型語言模型在近視護理中的表現基準：ChatGPT-3.5、ChatGPT-4.0和Google Bard的比較分析。 EBioMedicine 2023-09-18

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現，結果發現ChatGPT-4.0最準確，80.6%的回答被評為「好」，比ChatGPT-3.5（61.3%）和Google Bard（54.8%）都好。三者都展現高的全面性和自我修正能力，ChatGPT-4.0在「治療和預防」方面表現最佳，顯示了LLMs，尤其是ChatGPT-4.0，在提供準確且全面的近視資訊上有潛力。 PubMed DOI

Popular large language model chatbots' accuracy, comprehensiveness, and self-awareness in answering ocular symptom queries.
大眾化的大型語言模型聊天機器人在回答眼部症狀查詢時的準確性、全面性和自我意識。 iScience 2023-11-03

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答眼部症狀問題的表現，發現ChatGPT-4.0最準確，明顯優於其他。三者都很全面，但自我意識有限。研究指出ChatGPT-4.0在回答正確和全面性上有潛力，但臨床應用前仍需進一步驗證。 PubMed DOI

Evaluating Chatbot responses to patient questions in the field of glaucoma.
評估聊天機器人對青光眼患者問題的回應。 Front Med (Lausanne) 2024-07-26

這項研究評估了大型語言模型（LLM）ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題，並由三位專家評分。結果顯示，ChatGPT的平均得分為3.29，整體表現良好，但有29.2%的回應得分低於3分。經過自我修正後，得分從2.96提升至3.58，滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力，但仍需更多研究來驗證其應用。 PubMed DOI

A Qualitative Evaluation of ChatGPT4 and PaLM2's Response to Patient's Questions Regarding Age-Related Macular Degeneration.
對於患者關於年齡相關性黃斑變性問題的 ChatGPT4 和 PaLM2 回應的質性評估。 Diagnostics (Basel) 2024-07-27

這篇論文探討了兩個大型語言模型（LLMs），ChatGPT4 和 PaLM2，對於年齡相關黃斑變性（AMD）患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題，並讓這兩個模型及三位眼科醫生回答。結果顯示，ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2，顯示出這些模型在患者教育上的潛力，但仍需謹慎使用，不能取代專業醫療建議。 PubMed DOI

Evaluating the effectiveness of large language models in patient education for conjunctivitis.
評估大型語言模型在結膜炎患者教育中的有效性。 Br J Ophthalmol 2024-08-30

這項研究評估了大型語言模型（LLMs）在回答結膜炎相關問題的有效性，於復旦大學眼耳鼻喉醫院進行。研究分為兩階段，第一階段四個LLM（GPT-4、Qwen、Baichuan 2和PaLM 2）回答22個問題，專家評估其正確性、完整性等。結果顯示GPT-4表現最佳，Qwen在有用性和安全性上也不錯。第二階段中，30名結膜炎患者與GPT-4或Qwen互動，滿意度高。研究結論認為LLMs能提升患者教育，但需改善個性化和複雜性處理能力。 PubMed DOI

Exploring the Accuracy and Readability of ChatGPT in Providing Information to Patients With Keratoconus.
探討 ChatGPT 在向角膜圓錐症患者提供資訊的準確性和可讀性。 J Pediatr Ophthalmol Strabismus 2024-09-20

這項研究評估了ChatGPT（OpenAI）對角膜圓錐症常見問題的回答準確性，因為患者對此病症可能不太了解。結果顯示，ChatGPT提供的資訊大部分是正確的，但也有一些小錯誤。不過，回答的複雜性需要較高的閱讀能力，這可能讓許多患者難以理解。因此，對於角膜圓錐症患者來說，提供更易懂的資訊是非常重要的。 PubMed DOI

Assessing the Responses of Large Language Models (ChatGPT-4, Claude 3, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Retinopathy of Prematurity: A Study on Readability and Appropriateness.
評估大型語言模型（ChatGPT-4、Claude 3、Gemini 和 Microsoft Copilot）對早產兒視網膜病常見問題的回應：可讀性和適當性的研究。 J Pediatr Ophthalmol Strabismus 2024-10-28

這項研究評估了四個大型語言模型（LLMs）對父母詢問早產兒視網膜病（ROP）的回應。整理了60個常見問題，三位專家評估其回應的適當性和完整性。研究發現，ChatGPT-4的適當性得分最高（100%），但文本結構較複雜，需大學程度理解。相對而言，Gemini被認為最易讀，而Microsoft Copilot在可讀性指標上表現優異。總體來看，ChatGPT-4提供最準確的回應，但可能讓某些父母難以理解，Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

Assessment of Large Language Models in Cataract Care Information Provision: A Quantitative Comparison.
大型語言模型在白內障護理資訊提供中的評估：定量比較。 Ophthalmol Ther 2024-11-08

白內障是失明的主要原因之一，許多人在線上尋求醫療建議，但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題，評估了不同大型語言模型（LLMs）的回應準確性與完整性。結果顯示，ChatGPT-4o和Google Bard在準確性上表現優異，ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力，特別是在預防方面，並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

A Performance Evaluation of Large Language Models in Keratoconus: A Comparative Study of ChatGPT-3.5, ChatGPT-4.0, Gemini, Copilot, Chatsonic, and Perplexity.
Keratoconus 中大型語言模型的性能評估：ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity 的比較研究。 J Clin Med 2024-11-09

本研究評估了六款流行聊天機器人（ChatGPT-3.5、ChatGPT-4.0、Gemini、Copilot、Chatsonic 和 Perplexity）在提供圓錐角膜資訊的可靠性。使用 mDISCERN 和全球質量評分（GQS）指標進行評估，結果顯示大部分網站的責任性較低，且可讀性普遍偏高。Gemini 和 Copilot 的表現最佳，顯示出較高的可靠性和質量，但仍需改善以符合病人的健康素養需求。 PubMed DOI

原始文章

站上相關主題文章列表