原始文章

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4和Google Gemini在分析青光眼病例描述及提出手術計劃的表現。ChatGPT-4在與專家一致性和回應品質方面表現較佳,尤其在複雜病例中。兩者常建議小梁切除術。總體而言,ChatGPT-4在分析青光眼手術病例方面表現良好,Google Gemini則在回答問題上有限制。 PubMed DOI

研究比較了Google Gemini和Bard在EyeQuiz上回答眼科醫學委員會認證練習問題的表現,發現兩者在美國的準確率為71%。次級分析顯示,來自越南的Bard和來自越南、巴西和荷蘭的Gemini在準確性和回答方面有些差異。總的來說,這些聊天機器人表現不錯,但在不同國家有些微差異,且在給出錯誤答案時傾向提供自信的解釋。 PubMed DOI

研究比較了ChatGPT 3.5、Microsoft Bing和Google Gemini在神經眼科病例診斷上的表現。ChatGPT 3.5在準確性和適用性方面優於Microsoft Bing和Google Gemini,顯示AI模型在提升醫學教育和眼科診斷上有潛力。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究評估了兩個大型語言模型,ChatGPT-4 和 Google Gemini,針對視網膜脫落問題的可讀性和準確性。分析了13個不同難度的問題,並由十位專家評分。結果顯示,Google Gemini 較易理解,但 ChatGPT-4 在正確答案上表現更佳,尤其是困難問題。ChatGPT-4 在八個問題上優於 Google Gemini,且在簡單和困難問題上都獲得更高評分。整體而言,這兩個 AI 工具有效提供準確的醫療資訊,建議可增強醫療護理。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

大型語言模型(LLMs)如ChatGPT(GPT-4)、Gemini和Bing在醫學教育上展現潛力,特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示,GPT-4的準確率為54.75%,優於Gemini(40.50%)和Bing(37.00%)。高年級住院醫師的準確率達75.5%,明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當,但仍未達到更有經驗的住院醫師的準確性,顯示在醫學教育中有潛在應用價值。 PubMed DOI

這項研究評估了兩個AI語言模型,ChatGPT 4.0和Google Gemini,在回答79個兒科放射學問題上的表現。結果顯示,ChatGPT 4.0的準確率為83.5%,而Google Gemini則為68.4%,差異顯著(p=0.0255,RR=1.221)。雖然ChatGPT 4.0整體上表現較佳,但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入,以更全面評估AI模型在放射學的有效性。 PubMed DOI