原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題,並由三位教職員評估AI的回應。結果顯示,ChatGPT在大多數能力上優於其他模型,特別是在MI 2、3、5、6、7和8方面;Gemini在MI 1和4方面表現較好,而Meta AI的得分最低。質性評估指出,ChatGPT的回應更詳細,Gemini有時缺少關鍵點,Meta AI則較為簡潔。總體來看,ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT 3.5和Gemini回答200個微生物學問題的表現,兩者準確率約70%。Gemini在微生物學和免疫學表現較佳,ChatGPT 3.5則在應用微生物學方面表現突出。研究指出,這些人工智慧平台在微生物學和醫學教育上有潛力,但仍需進一步改進以提升表現。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4 和 Gemini,在回答病毒學多選題的表現,涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性,結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini,英語正確率分別為 80% 和 62.5%,阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳,結果顯示人工智慧在醫療教育中的潛力,並強調了提升多語言有效性的必要性。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI

這項研究評估了六個生成式人工智慧大型語言模型(LLMs)在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示,ChatGPT-4的準確率最高,達60.5%,其次是Copilot(42.0%)和ChatGPT-3.5(41.0%)。雖然這些模型尚未能完全取代解剖學教育者,但它們在醫學教育中仍具備實用價值。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI