原始文章

這項研究發現,GPT-4.o 在診斷角膜疾病的準確率最高(80%),但還是比不上人類角膜專科醫師(92.5%)。雖然 GPT-4.o 等大型語言模型有潛力,但在複雜病例上表現不穩定,目前只能當作輔助工具,臨床決策還是得靠專家判斷。 PubMed DOI


站上相關主題文章列表

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI

這項研究比較了AI模型GPT-4o與人類眼科醫生在青光眼診斷上的表現。研究在一所三級眼科醫療中心進行,分析了26個青光眼病例。結果顯示,GPT-4o在主要診斷的準確性上較低,得分5.500,經驗最豐富的醫生得分8.038。在完整性方面,GPT-4o得分3.077,低於B醫生的3.615。不過,在鑑別診斷上,GPT-4o的表現與醫生相當,得分7.577。研究認為,GPT-4o雖然尚未成為獨立診斷工具,但在臨床上可作為輔助工具,未來AI的進步可能會提升其有效性。 PubMed DOI

這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。 主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在回答眼表疾病相關問題的表現,包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題,涵蓋角膜炎等主題。結果顯示,ChatGPT-4的準確性和可信度最佳,成功率為59%,但仍有28%的錯誤率。PaLM2在答案準確性上表現良好,相關係數達0.8。整體而言,這些模型在醫學教育和臨床實踐中展現了潛力,特別是ChatGPT-4的表現尤為突出。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現,並與眼科醫生進行比較。研究隨機選取100個問題,結果顯示LLMs的正確回答率為80%至81%,而眼科醫生為72%。儘管LLMs的準確率較高,但統計分析顯示它們之間及與人類醫生之間並無顯著差異,因此無法證明LLMs在此領域的優越性。 PubMed DOI

這項研究評估了先進的大型語言模型(LLMs),如GPT-4、GPT-4o和Llama-3-70b,作為急診眼科決策支持工具的效果,並與認證眼科醫生的表現進行比較。研究使用了73個匿名急診案例,兩位專家眼科醫生對診斷和治療計畫進行評分。結果顯示,人類專家的平均得分為3.72,GPT-4為3.52,Llama-3-70b為3.48,而GPT-4o得分最低,為3.20。研究建議LLMs在急診眼科中具備有效的決策支持潛力。 PubMed DOI

這項研究評估了流行的視覺大型語言模型(VLLMs),特別是OpenAI的GPT-4V和Google的Gemini,對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示,GPT-4V在預設模式下的檢測準確率最高,達97.1%,但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性,以及人類監督在臨床眼科中的重要性。 PubMed DOI

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現,GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大,有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說,這些模型在皮膚科影像判讀有潛力,但目前還有不少限制,未來需結合臨床資料才能更可靠。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯,但在診斷口腔扁平苔癬時,整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選,LLMs還不適合直接應用於臨床。 PubMed DOI