原始文章

最近在人工智慧(AI)方面的進展,特別是大型語言模型(LLMs),正在改變醫學領域。本研究比較了四款先進的LLM聊天機器人—Claude、GPT-4、Gemini和Copilot—在生物化學課程中的表現。使用200道USMLE風格的多選題進行評估,結果顯示這些聊天機器人平均正確率為81.1%,超過學生8.3%。Claude的準確率最高,達92.5%。研究指出,這些AI模型在醫學教育中可能具備特定優勢,特別是在生物化學領域,顯示AI在醫學訓練中的潛力。 PubMed DOI


站上相關主題文章列表

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現,並與醫學生進行對照。結果顯示,這些聊天機器人平均正確率為67.2%,低於學生的74.6%。其中,Claude和GPT-4表現最佳,準確率分別為83%和81.7%,超過學生平均分數。研究還發現,神經細胞學和胚胎學的準確率較高,而腦幹和小腦則較低。整體而言,Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力,顯示AI在醫學教育中的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在腫瘤學知識的表現,使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5,共分析790道選擇題。Claude 3.5 Sonnet表現最佳,所有考試通過,平均得分77.6%;ChatGPT 4o通過七場考試,得分67.8%。Llama-3和Gemini 1.5表現較差,得分均低於50%。研究顯示,這些模型需定期更新,以保持腫瘤學教育的相關性。總體而言,先進的LLMs在該領域有潛力,但仍需持續改進。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在醫學領域的表現,特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗,結果顯示GPT-4o的準確率最高,達81.7%,其次是GPT-4 Turbo(76.1%)和Claude 3 Opus(74.3%)。這些模型在數字和計算任務上表現優異,顯示出它們能有效運用現有知識協助醫療專業人員進行決策,未來有潛力成為醫療輔助工具。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題,並由三位教職員評估AI的回應。結果顯示,ChatGPT在大多數能力上優於其他模型,特別是在MI 2、3、5、6、7和8方面;Gemini在MI 1和4方面表現較好,而Meta AI的得分最低。質性評估指出,ChatGPT的回應更詳細,Gemini有時缺少關鍵點,Meta AI則較為簡潔。總體來看,ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這項研究發現,GPT-4o 和 Claude 在美國醫師執照考試胚胎學題目上表現最好,正確率約九成,兩者差異不大。Copilot、Gemini 和 GPT-3.5 分數較低。頂尖AI模型有助於胚胎學教學,但還是需要專業醫師把關。 PubMed DOI

這項研究發現,ChatGPT 3.5在大學初階生物化學課程中產生的學習資料,學生評價兩極,有人覺得有幫助,有人還是偏好傳統教材。而ChatGPT在開放式筆記考試中表現不佳,無法及格。整體來說,ChatGPT在教學上有潛力,但目前還有不少限制,未來AI學習工具還有改進空間。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI