A Qualitative Evaluation of ChatGPT4 and PaLM2's Response to Patient's Questions Regarding Age-Related Macular Degeneration.
對於患者關於年齡相關性黃斑變性問題的 ChatGPT4 和 PaLM2 回應的質性評估。 Diagnostics (Basel) 2024-07-27

這篇論文探討了兩個大型語言模型（LLMs），ChatGPT4 和 PaLM2，對於年齡相關黃斑變性（AMD）患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題，並讓這兩個模型及三位眼科醫生回答。結果顯示，ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2，顯示出這些模型在患者教育上的潛力，但仍需謹慎使用，不能取代專業醫療建議。 PubMed DOI

Investigating the role of large language models on questions about refractive surgery.
探討大型語言模型在屈光手術相關問題中的角色。 Int J Med Inform 2025-01-09

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示，ChatGPT-4.0的得分高於Microsoft Copilot，但與Google Gemini無顯著差異。根據DISCERN量表，ChatGPT-4.0的可靠性得分最高，但可讀性得分最低，顯示其答案對病人來說較為複雜。總體而言，ChatGPT-4.0提供了更準確的信息，但理解上較為困難。 PubMed DOI

Assessing the possibility of using large language models in ocular surface diseases.
評估大型語言模型在眼表疾病中的應用可能性。 Int J Ophthalmol 2025-01-20

這項研究評估了五個大型語言模型（LLMs）在回答眼表疾病相關問題的表現，包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題，涵蓋角膜炎等主題。結果顯示，ChatGPT-4的準確性和可信度最佳，成功率為59%，但仍有28%的錯誤率。PaLM2在答案準確性上表現良好，相關係數達0.8。整體而言，這些模型在醫學教育和臨床實踐中展現了潛力，特別是ChatGPT-4的表現尤為突出。 PubMed DOI

Evaluation of large language models for providing educational information in orthokeratology care.
大型語言模型在提供正規角膜塑形護理教育資訊中的評估。 Cont Lens Anterior Eye 2025-02-12

這項研究探討大型語言模型（LLMs）在教育患者有關矯正角膜塑形術的有效性。研究人員建立了24個相關問題的題庫，並使用GPT-4、Qwen-72B和Yi-34B生成中文回應。評估透過線上平台及眼科醫生和父母的主觀評價進行。主要發現包括： - Qwen-72B的回應最短。 - GPT-4的可讀性較低。 - 三個LLM在安全性、相關性等方面無顯著差異。 - 父母對所有LLM評價高，GPT-4在幫助性和滿意度上最佳。 - Qwen-72B的整體分數最高。總體而言，GPT-4和Qwen-72B提供準確的資訊，但仍需改進以提升精確度。 PubMed DOI

Performance of popular large language models in glaucoma patient education: A randomized controlled study.
流行大型語言模型在青光眼患者教育中的表現：一項隨機對照研究。 Adv Ophthalmol Pract Res 2025-03-31

這項研究探討了四個大型語言模型（LLMs）——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答，並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動，並與醫生一起評分，標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示，Baichuan 2 和 ChatGPT-4.0 表現最佳，且兩者在患者和醫生評估中無顯著差異，結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

Evaluating the Effectiveness of Large Language Models in Providing Patient Education for Chinese Patients With Ocular Myasthenia Gravis: Mixed Methods Study.
評估大型語言模型在為中國眼肌無力患者提供病患教育方面的有效性：混合方法研究。 J Med Internet Res 2025-04-10

眼肌型重症肌無力（OMG）主要影響眼部肌肉，常見症狀有眼瞼下垂和重影。由於中國醫療資源有限，患者教育顯得尤為重要。本研究評估大型語言模型（LLMs）在教育OMG患者的有效性，分為兩階段進行。結果顯示，ChatGPT o1-preview在準確性和有用性上表現最佳，並獲得患者較高滿意度。儘管LLMs在患者教育上展現潛力，但仍需解決錯誤資訊和可讀性等問題，以確保安全有效的臨床應用。 PubMed DOI

Comparative performance analysis of global and chinese-domain large language models for myopia.
全球與中國域大型語言模型在近視方面的比較性能分析。 Eye (Lond) 2025-04-13

這項研究評估了全球大型語言模型（LLMs）和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等，還有華佗GPT、MedGPT等中文模型。共評估39個問題，專家用3分制評分。結果顯示，ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳，且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看，無論是全球還是中文模型，都能有效解決近視問題，特別是全球模型表現優異。 PubMed DOI

DeepSeek Versus GPT: Evaluation of Large Language Model Chatbots' Responses on Orofacial Clefts.
DeepSeek 與 GPT：大型語言模型聊天機器人在口腔顏面裂隙相關問題回應的評估 J Craniofac Surg 2025-04-17

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現，Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳，但GPT o1-preview在展現同理心方面較突出。兩者各有優勢，未來醫療用AI應結合準確性與同理心，才能提供更完善的病患諮詢服務。 PubMed DOI

Chinese generative AI models (DeepSeek and Qwen) rival ChatGPT-4 in ophthalmology queries with excellent performance in Arabic and English.
中文生成式 AI 模型（DeepSeek 與 Qwen）在眼科問題中，以阿拉伯語和英語展現出色表現，媲美 ChatGPT-4。 Narra J 2025-05-12

這項研究發現，中國的生成式AI模型 Qwen-2.5 在回答眼科問題時，不論用英文還是阿拉伯文，表現都比 DeepSeek-R1 和 ChatGPT-40 更好。所有AI都展現出不錯的多語言能力，顛覆了AI只偏好英文的看法。中國AI在醫療諮詢領域已經能和 ChatGPT-40 一較高下，甚至更勝一籌。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

原始文章

站上相關主題文章列表