原始文章

這項研究評估了31個大型語言模型(LLMs)在葡萄牙語醫學知識測試中的表現,特別針對巴西國家醫學考試進行分析。比較了23個開源模型和8個專有模型在399道選擇題上的表現。結果顯示,Llama 3 8B的成功率最高為53.9%,而Mixtral 8×7B達63.7%。較大的模型如Llama 3 70B成功率為77.5%。專有模型GPT-4o和Claude Opus表現優異,分別得86.8%和83.8%。有10個模型在Revalida測試中超越人類,但9個模型在提供連貫答案上有困難。整體來看,較大的模型表現較佳,但某些中型模型也表現不俗。 PubMed DOI


站上相關主題文章列表

研究發現在醫學教育中使用大型語言模型(LLMs)回答多重選擇問題,Bing Chat效果最好,甚至超越人類。Llama 2表現較差,Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力,特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說,這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現,結果發現GPT-4得分最高,達100%,Claude次之,接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力,呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究介紹了MedExamLLM,一個評估大型語言模型(LLMs)在全球醫學考試表現的平台。它彙整了193篇相關文章,涵蓋16個LLM及來自28國、15種語言的198個醫學考試,時間範圍從2009到2023年。結果顯示,美國考試數量最多,主要語言為英語,GPT系列,特別是GPT-4,表現最佳。該平台強調LLM能力在地理和語言上有顯著差異,並且是開源的,旨在促進人工智慧在醫學教育中的應用。未來研究應解決潛在偏見及非英語研究的排除問題。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在腫瘤學知識的表現,使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5,共分析790道選擇題。Claude 3.5 Sonnet表現最佳,所有考試通過,平均得分77.6%;ChatGPT 4o通過七場考試,得分67.8%。Llama-3和Gemini 1.5表現較差,得分均低於50%。研究顯示,這些模型需定期更新,以保持腫瘤學教育的相關性。總體而言,先進的LLMs在該領域有潛力,但仍需持續改進。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI