原始文章

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI


站上相關主題文章列表

研究比較三個大型語言模型在眼科醫學上的表現,發現ChatGPT-4.0和Bing Chat接近人類表現,但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀,但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出,語言模型在醫學問題上有潛力,但需要改進以減少錯誤。 PubMed DOI

大型語言模型(LLMs)正在改變醫學診斷和治療,提供高準確度,超越傳統搜尋引擎。將LLMs整合到醫療輔助程式中對眼科醫師實踐循證醫學至關重要。一項研究比較了LLM聊天機器人對眼科問題和真實病例的回應,發現LLM在診斷上表現優異,甚至勝過專家,顯示其在眼科診斷上的潛力。 PubMed DOI

眼科護理中,LLMs像ChatGPT引起關注。研究指出在病人資訊、臨床診斷和眼科問題上有幫助。LLM表現受到迭代、提示和領域的影響。ChatGPT-4在眼科考試、症狀分類和提供資訊方面表現良好。LLMs有潛力,但在專業領域表現不盡理想。需要進一步研究,不可完全依賴人工智慧。設定標準並評估LLMs在臨床環境中的成功應用至關重要。 PubMed DOI

研究發現大型語言模型在耳鼻喉科疾病診斷中表現不錯,ChatGPT-3.5準確率最高達89%,建議仍需醫師監督。 PubMed DOI

研究發現,GPT-4在眼科領域表現優異,得到眼科醫師認可。這顯示先進語言模型在提供醫療建議上有潛力,尤其在眼科專家有限的情況下。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,在葡萄膜炎這個眼內炎症性疾病領域的有效性。研究中針對LLM提出臨床相關問題,進行三次測試以評估其回答的準確性。結果顯示三次測試之間有中等一致性,顯示LLM的回答有一定穩定性。不過,LLM提供的參考資料準確性不佳,只有42.3%是正確引用,另有42.3%在醫學資料庫中找不到。研究指出,雖然LLMs在眼科有潛力,但仍需加強訓練和測試,以確保資料的可靠性。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

白內障是失明的主要原因之一,許多人在線上尋求醫療建議,但可靠資訊難以獲得。研究人員針對46個白內障護理的常見問題,評估了不同大型語言模型(LLMs)的回應準確性與完整性。結果顯示,ChatGPT-4o和Google Bard在準確性上表現優異,ChatGPT-4o在完整性方面也領先其他模型。這項研究強調了LLMs在提供白內障相關資訊的潛力,特別是在預防方面,並呼籲持續提升其醫療諮詢的準確性。 PubMed DOI