原始文章

這項研究評估了多種大型語言模型(LLMs)在回答眼科問題的表現,特別針對 Microsoft Copilot、GPT-4(包含 GPT-4o 和 GPT-4o mini)以及 Google Gemini(包括 Gemini 和 Gemini Advanced)。研究使用了來自 StatPearls 的 300 個問題,涵蓋不同的子專科和影像任務,並探討了兩種提示方式的效果。 PubMed DOI


站上相關主題文章列表

對於早產兒視網膜病變(ROP)相關問題,經評估後發現ChatGPT-4表現最好,回答最準確可靠;BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜,但提供詳盡可信賴的回答。總括而言,這些模型通常提供正確資訊。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI

這項研究評估了四款大型語言模型(LLM)聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性,並用五種指標測量可讀性。結果顯示,ChatGPT 3.5 正確率為 45%,ChatGPT 4.0 為 52.5%,Gemini 表現最佳,達 87.5%,Copilot 則為 60%。所有機器人的可讀性都很困難,理解需具大學學位。儘管如此,Gemini 提供的答案最為適當,且可讀性較佳。總體而言,這些聊天機器人仍可能產生不當回應,且閱讀上有挑戰。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現,並與眼科醫生進行比較。研究隨機選取100個問題,結果顯示LLMs的正確回答率為80%至81%,而眼科醫生為72%。儘管LLMs的準確率較高,但統計分析顯示它們之間及與人類醫生之間並無顯著差異,因此無法證明LLMs在此領域的優越性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Google Gemini,在神經外科考試影像問題上的表現。共分析379個問題,結果顯示GPT-4o的正確率為51.45%,明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出,且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高,但兩者在影像問題上的表現仍不及傳統考試,顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Gemini 2.0 Advanced和ChatGPT-4o,在回答巴西眼科醫學考試中與白內障相關問題的準確性。分析了221道選擇題,結果顯示Gemini的準確率為85.45%和80.91%,而ChatGPT的得分為80.00%和84.09%。評估者之間的協議程度中等,Gemini的Cohen's kappa值為0.514,ChatGPT為0.431。整體而言,這兩個模型展現了高準確性,顯示出在醫學教育上的潛力,但仍需進一步改進和驗證。 PubMed DOI

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現,Copilot正確率最高(74%),也最容易閱讀。雖然這些AI對學習有幫助,但答案不一定完全正確,使用時還是要多加留意。 PubMed DOI