原始文章

這項研究評估了兩個人工智慧語言模型,ChatGPT 和 BingAI Precise,在回答全國研究生入學考試(NEET-PG)練習題的表現。研究顯示,兩者都達到及格分數,但 BingAI 在準確性上持續優於 ChatGPT。統計分析確認了它們的正確答案率有顯著差異。結論指出,這兩個模型可作為醫學執照考試的學習輔助工具,未來若能在影像解讀上改進,將進一步強化其在教育和臨床環境中的應用。 PubMed DOI


站上相關主題文章列表

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

研究發現在醫學教育中使用大型語言模型(LLMs)回答多重選擇問題,Bing Chat效果最好,甚至超越人類。Llama 2表現較差,Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力,特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說,這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

人工智慧(AI)工具逐漸融入醫學和教育領域,ChatGPT作為大型語言模型(LLM)引起了關注。本研究分析了2023年全國研究生入學考試(NEET-PG)中的200個問題,並使用GPT-4進行回答。結果顯示,ChatGPT-4正確回答了129個問題,主要涉及內科、婦產科、一般外科和病理學。研究顯示,ChatGPT在醫學教育和臨床實踐中具潛力,未來需進一步探討其應用與有效性。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

大型語言模型(LLMs)如ChatGPT(GPT-4)、Gemini和Bing在醫學教育上展現潛力,特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示,GPT-4的準確率為54.75%,優於Gemini(40.50%)和Bing(37.00%)。高年級住院醫師的準確率達75.5%,明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當,但仍未達到更有經驗的住院醫師的準確性,顯示在醫學教育中有潛在應用價值。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。 研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。 PubMed DOI

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現,分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題,結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高(71.7%),而「免疫系統」最低(46.3%)。隨著問題難度和長度增加,表現下降,顯示較複雜問題更易錯誤。整體而言,ChatGPT的能力接近及格門檻,顯示其作為醫學生輔助學習工具的潛力,並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI