原始文章

這項研究透過文獻分析,評估大型語言模型(LLMs)在眼科考試問題上的準確性。研究於2024年3月進行,納入14項研究,主要測試ChatGPT-3.5、ChatGPT-4、Bard和Bing Chat等模型。結果顯示,LLMs的整體準確率為0.65,其中ChatGPT-4表現最佳(0.74),而ChatGPT-3.5最低(0.52)。在不同主題中,「病理學」表現最佳(0.78),而「眼科的基本原則」最弱(0.52)。研究建議未來應加入影像問題,以更全面評估LLMs的能力。 PubMed DOI


站上相關主題文章列表

研究比較三個大型語言模型在眼科醫學上的表現,發現ChatGPT-4.0和Bing Chat接近人類表現,但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀,但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出,語言模型在醫學問題上有潛力,但需要改進以減少錯誤。 PubMed DOI

研究比較了ChatGPT-3.5、ChatGPT-4.0和Google Bard回答近視問題的表現,結果發現ChatGPT-4.0最準確,80.6%的回答被評為「好」,比ChatGPT-3.5(61.3%)和Google Bard(54.8%)都好。三者都展現高的全面性和自我修正能力,ChatGPT-4.0在「治療和預防」方面表現最佳,顯示了LLMs,尤其是ChatGPT-4.0,在提供準確且全面的近視資訊上有潛力。 PubMed DOI

大型語言模型(LLMs)正在改變醫學診斷和治療,提供高準確度,超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應,發現LLM在診斷上表現優異,甚至勝過專家,顯示其在眼科診斷上的潛力。 PubMed DOI

眼科護理中,LLMs像ChatGPT引起關注。研究指出在病人資訊、臨床診斷和眼科問題上有幫助。LLM表現受到迭代、提示和領域的影響。ChatGPT-4在眼科考試、症狀分類和提供資訊方面表現良好。LLMs有潛力,但在專業領域表現不盡理想。需要進一步研究,不可完全依賴人工智慧。設定標準並評估LLMs在臨床環境中的成功應用至關重要。 PubMed DOI

研究發現,GPT-4在眼科領域表現優異,得到眼科醫師認可。這顯示先進語言模型在提供醫療建議上有潛力,尤其在眼科專家有限的情況下。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMA—在提供免疫檢查點抑制劑(ICIs)相關眼部毒性資訊的表現。研究提出八個問題,並由四位眼科醫生使用6點李克特量表評分。結果顯示,三者在準確性和完整性上評分相似,無顯著差異。平均評分為:ChatGPT(準確性4.59,完整性4.09)、Bard(準確性4.59,完整性4.19)、LLaMA(準確性4.38,完整性4.03)。整體而言,這三個模型在提供ICI眼部毒性資訊方面表現良好,但評分者之間的可靠性較低,建議未來需進一步研究。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜(KCN)相關問題的表現。研究者提出五十個問題,並由三位眼科醫生評分。結果顯示,ChatGPT-4 的表現最佳,100% 的回答得分在 3 分以上,且有 74% 的回答獲得「強烈同意」。相比之下,Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高,但可讀性較低,整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

白內障是失明的主要原因之一,許多人在線上尋求醫療建議,但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題,評估了不同大型語言模型(LLMs)的回應準確性與完整性。結果顯示,ChatGPT-4o和Google Bard在準確性上表現優異,ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力,特別是在預防方面,並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI