原始文章

這項研究評估了大型語言模型(LLMs)在回答結膜炎相關問題的有效性,於復旦大學眼耳鼻喉醫院進行。研究分為兩階段,第一階段四個LLM(GPT-4、Qwen、Baichuan 2和PaLM 2)回答22個問題,專家評估其正確性、完整性等。結果顯示GPT-4表現最佳,Qwen在有用性和安全性上也不錯。第二階段中,30名結膜炎患者與GPT-4或Qwen互動,滿意度高。研究結論認為LLMs能提升患者教育,但需改善個性化和複雜性處理能力。 PubMed DOI


站上相關主題文章列表

研究比較三個大型語言模型在眼科醫學上的表現,發現ChatGPT-4.0和Bing Chat接近人類表現,但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀,但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出,語言模型在醫學問題上有潛力,但需要改進以減少錯誤。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現,結果發現ChatGPT-4.0最準確,80.6%的回答被評為「好」,比ChatGPT-3.5(61.3%)和Google Bard(54.8%)都好。三者都展現高的全面性和自我修正能力,ChatGPT-4.0在「治療和預防」方面表現最佳,顯示了LLMs,尤其是ChatGPT-4.0,在提供準確且全面的近視資訊上有潛力。 PubMed DOI

大型語言模型(LLMs)正在改變醫學診斷和治療,提供高準確度,超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應,發現LLM在診斷上表現優異,甚至勝過專家,顯示其在眼科診斷上的潛力。 PubMed DOI

研究發現,大型語言模型(LLMs)生成的兒童青光眼患者教育資料(PEMs)質量高、易讀且準確。其中,ChatGPT-4生成的PEMs最易讀。在改進現有線上資訊方面,只有ChatGPT-4達到六年級閱讀水平。總結來說,LLMs是提升PEMs品質和兒童青光眼資訊易讀性的寶貴工具。 PubMed DOI

研究發現,GPT-4在眼科領域表現優異,得到眼科醫師認可。這顯示先進語言模型在提供醫療建議上有潛力,尤其在眼科專家有限的情況下。 PubMed DOI

這項研究評估了大型語言模型(LLM)ChatGPT 在青光眼領域的表現。研究人員提出了24個臨床問題,並由三位專家評分。結果顯示,ChatGPT的平均得分為3.29,整體表現良好,但有29.2%的回應得分低於3分。經過自我修正後,得分從2.96提升至3.58,滿分回應比例也從30.6%增至57.1%。這顯示ChatGPT在青光眼領域有潛力,但仍需更多研究來驗證其應用。 PubMed DOI

這篇論文探討了兩個大型語言模型(LLMs),ChatGPT4 和 PaLM2,對於年齡相關黃斑變性(AMD)患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題,並讓這兩個模型及三位眼科醫生回答。結果顯示,ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2,顯示出這些模型在患者教育上的潛力,但仍需謹慎使用,不能取代專業醫療建議。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在生成中國患者對乾眼症問題的回應表現。研究分為兩個階段,第一階段由六位眼科醫生根據正確性、完整性、可讀性、有用性和安全性對回應進行評分。結果顯示,GPT-4在各方面表現最佳,但可讀性較低。第二階段中,46位患者向GPT-4和Baichuan 2提問,發現GPT-4的完整性較高,但Baichuan 2的回應更易理解。整體而言,這些模型在提供乾眼症相關資訊上展現了潛力,對中國患者意義重大。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Bard 在製作小兒白內障病人教育材料的效果。研究使用三個提示來測試模型的表現,並根據質量、可理解性、準確性和可讀性進行評估。結果顯示,所有模型的回應質量都很高,但沒有一個被認為是可行的。特別是,ChatGPT-4 生成的內容最易讀,並能有效將材料調整至六年級的閱讀水平。總體來看,ChatGPT-4 是生成高質量病人教育材料的有效工具。 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI