原始文章

這項研究評估了多種大型語言模型(LLMs)在回答眼科問題的表現,特別針對 Microsoft Copilot、GPT-4(包含 GPT-4o 和 GPT-4o mini)以及 Google Gemini(包括 Gemini 和 Gemini Advanced)。研究使用了來自 StatPearls 的 300 個問題,涵蓋不同的子專科和影像任務,並探討了兩種提示方式的效果。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確,但Gemini和Microsoft Copilot更容易理解。在醫療保健中,準確性和易讀性同樣重要,強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)——ChatGPT-4、Copilot 和 Gemini——在回答圓錐角膜(KCN)相關問題的表現。研究者提出五十個問題,並由三位眼科醫生評分。結果顯示,ChatGPT-4 的表現最佳,100% 的回答得分在 3 分以上,且有 74% 的回答獲得「強烈同意」。相比之下,Copilot 和 Gemini 的同意率僅為 34% 和 42%。雖然 ChatGPT-4 的可靠性較高,但可讀性較低,整體仍被認為是解答 KCN 問題的最佳選擇。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)對父母詢問早產兒視網膜病(ROP)的回應。整理了60個常見問題,三位專家評估其回應的適當性和完整性。研究發現,ChatGPT-4的適當性得分最高(100%),但文本結構較複雜,需大學程度理解。相對而言,Gemini被認為最易讀,而Microsoft Copilot在可讀性指標上表現優異。總體來看,ChatGPT-4提供最準確的回應,但可能讓某些父母難以理解,Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot,針對圓錐角膜患者的問題回答效果。兩位眼科醫生使用5點李克特量表評估25個常見問題的回答,並用DISCERN量表和可讀性指標來檢視其可靠性。結果顯示,ChatGPT-4.0的表現最佳,92%的回答獲得「同意」或「強烈同意」,在準確性和細節上表現優異。不同模型間有顯著差異(P<0.001),雖然ChatGPT-4.0的回答較複雜,但仍被認為可靠且準確。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Google Gemini 1.5 Pro 和 Microsoft Copilot Pro—在回答葡萄膜炎和眼部炎症問題的表現,並與眼科醫生進行比較。研究隨機選取100個問題,結果顯示LLMs的正確回答率為80%至81%,而眼科醫生為72%。儘管LLMs的準確率較高,但統計分析顯示它們之間及與人類醫生之間並無顯著差異,因此無法證明LLMs在此領域的優越性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Gemini 2.0 Advanced和ChatGPT-4o,在回答巴西眼科醫學考試中與白內障相關問題的準確性。分析了221道選擇題,結果顯示Gemini的準確率為85.45%和80.91%,而ChatGPT的得分為80.00%和84.09%。評估者之間的協議程度中等,Gemini的Cohen's kappa值為0.514,ChatGPT為0.431。整體而言,這兩個模型展現了高準確性,顯示出在醫學教育上的潛力,但仍需進一步改進和驗證。 PubMed DOI