原始文章

人工智慧(AI)在解剖學教學中的應用引起了廣泛關注。近期研究比較了三款知名的AI聊天機器人:ChatGPT、Gemini和Claude,針對23個問題進行測試。結果顯示,ChatGPT的準確率最高,達100%;Claude則提供了最全面的回應。相對而言,Gemini的表現較差,準確率僅60%,且科學細節不足。研究建議在解剖學教育中使用Claude和ChatGPT,但不建議目前形式的Gemini。 PubMed DOI


站上相關主題文章列表

研究比較ChatGPT和Google Bard在解剖學教育上的應用,發現兩者在回答問題和出題方面表現相似,但在寫文章方面還有改進空間。結果顯示使用語言模型需謹慎,以免提供不正確或誤導性資訊。雖然大型語言模型在解剖學教學有潛力,但還需進一步研究提升其在教育上的效果。 PubMed DOI

研究比較不同AI語言模型回答組織學和胚胎學問題的表現,發現聊天機器人在回答問題上表現不錯,但在問題分類上有困難,且表現會隨時間不一致。儘管能給出正確答案,但缺乏一致性,因此在醫學教育中使用需謹慎。 PubMed DOI

人工智慧技術,特別是生成式預訓練轉換器(GPTs),有潛力提升解剖科學教育。AnatomyGPT是針對解剖科學教育設計的AI應用程式,在解剖主題的考試題目上表現優異,比ChatGPT更具參考價值。這研究顯示,像AnatomyGPT這樣的定製GPT對於教授和學習解剖學可能有幫助,但還需要進一步研究來探索其在教育中的潛力。 PubMed DOI

研究比較了ChatGPT 3.5和Gemini回答200個微生物學問題的表現,兩者準確率約70%。Gemini在微生物學和免疫學表現較佳,ChatGPT 3.5則在應用微生物學方面表現突出。研究指出,這些人工智慧平台在微生物學和醫學教育上有潛力,但仍需進一步改進以提升表現。 PubMed DOI

這項研究評估了一個名為Anatbuddy的AI聊天機器人,專注於提供準確的解剖學資訊,並與ChatGPT 3.5進行比較。Anatbuddy採用檢索增強生成的方法,能根據特定知識庫給出有上下文的回應。三位解剖學專家評估了18個胸部解剖問題的回答,結果顯示Anatbuddy的事實準確性得分明顯高於ChatGPT(4.78對4.11)。雖然其他評估標準差異不大,但研究建議應開發自訂AI聊天機器人以提升解剖學教育的準確性,並呼籲進一步探討學生對這類工具的接受度及其學習影響。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

隨著醫學領域對ChatGPT的興趣增加,了解其在解剖學教育中的潛力與限制變得重要。本研究透過34個問題評估ChatGPT的準確性與有效性,結果顯示它能有效幫助醫學生理解解剖結構的臨床意義,並成功解釋缺血性心臟病的解剖基礎。雖然生成的解剖圖像準確性不足,但它能創建測驗、總結講座內容,並合理分析解剖問題。總體而言,ChatGPT在解剖學教育中具潛力,能輔助學習而非取代教師。 PubMed DOI

這項研究評估了兩個AI語言模型,ChatGPT 4.0和Google Gemini,在回答79個兒科放射學問題上的表現。結果顯示,ChatGPT 4.0的準確率為83.5%,而Google Gemini則為68.4%,差異顯著(p=0.0255,RR=1.221)。雖然ChatGPT 4.0整體上表現較佳,但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入,以更全面評估AI模型在放射學的有效性。 PubMed DOI

這項研究評估了六個生成式人工智慧大型語言模型(LLMs)在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示,ChatGPT-4的準確率最高,達60.5%,其次是Copilot(42.0%)和ChatGPT-3.5(41.0%)。雖然這些模型尚未能完全取代解剖學教育者,但它們在醫學教育中仍具備實用價值。 PubMed DOI