原始文章

這項研究評估了多種大型語言模型(LLMs)在處理眼科緊急情況的表現,並與英國國民健康服務(NHS)111的系統進行比較。研究涵蓋21個緊急情境問題,測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示,93%的LLM回應至少得分為「良好」,顯示它們提供的資訊正確且無重大錯誤。整體來看,這些模型在提供即時資訊和指導方面,顯示出作為有效工具的潛力,能提升患者護理及醫療可及性。 PubMed DOI


站上相關主題文章列表

這篇論文探討了兩個大型語言模型(LLMs),ChatGPT4 和 PaLM2,對於年齡相關黃斑變性(AMD)患者常見問題的回答效果。研究強調患者了解病情對於慢性疾病管理的重要性。從專注於 AMD 的網站整理了143個問題,並讓這兩個模型及三位眼科醫生回答。結果顯示,ChatGPT4 在臨床共識、潛在危害等方面表現優於 PaLM2,顯示出這些模型在患者教育上的潛力,但仍需謹慎使用,不能取代專業醫療建議。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在回答眼表疾病相關問題的表現,包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題,涵蓋角膜炎等主題。結果顯示,ChatGPT-4的準確性和可信度最佳,成功率為59%,但仍有28%的錯誤率。PaLM2在答案準確性上表現良好,相關係數達0.8。整體而言,這些模型在醫學教育和臨床實踐中展現了潛力,特別是ChatGPT-4的表現尤為突出。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現,並與眼科醫生進行比較。研究隨機選取100個問題,結果顯示LLMs的正確回答率為80%至81%,而眼科醫生為72%。儘管LLMs的準確率較高,但統計分析顯示它們之間及與人類醫生之間並無顯著差異,因此無法證明LLMs在此領域的優越性。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在眼科的應用,特別是高排名期刊的相關文章,共分析了101篇研究,主要來自美國、英國和加拿大。研究指出,LLMs在醫學教育、臨床協助、研究及病人教育中有顯著貢獻,但也引發了對表現不一致、偏見及倫理問題的擔憂。作者強調持續改進AI的重要性,並呼籲建立倫理指導方針及跨學科合作,以應對這些挑戰,展現LLMs在眼科的潛力與限制。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。 研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。 PubMed DOI

這項研究評估了先進的大型語言模型(LLMs),如GPT-4、GPT-4o和Llama-3-70b,作為急診眼科決策支持工具的效果,並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例,兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示,人類專家的平均得分為3.72,GPT-4為3.52,Llama-3-70b為3.48,而GPT-4o得分最低,為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

這項研究探討了四個大型語言模型(LLMs)——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答,並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動,並與醫生一起評分,標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示,Baichuan 2 和 ChatGPT-4.0 表現最佳,且兩者在患者和醫生評估中無顯著差異,結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

本研究評估了ChatGPT-4在眼科診所對病人訊息的分流效果,並與眼科住院醫師進行比較。分析139則訊息後,發現MD與GPT-4在診所建議上的一致性為64.7%,而在分流緊急性上為60.4%。GPT-4在93.5%的案例中提供的緊急性建議與MD相符或更早。結果顯示,GPT-4能支持醫生的判斷,減輕工作負擔,並改善病人護理,但無法完全取代醫生的角色。整合AI有助於提升服務質量與病人結果。 PubMed DOI

這項研究用ChatGPT打造的聊天機器人,測試100個假設眼科急診案例,分級結果和三位資深眼科醫師高度一致(Cohen’s kappa約0.74–0.75),整體一致性也很高(Fleiss’ kappa = 0.79),和醫師表現沒顯著差異。顯示AI聊天機器人在眼科急診分級上,準確度可媲美專業醫師,有望成為急診分級的輔助工具。 PubMed DOI