原始文章

Microsoft Copilot(原本叫 Bing Chat)用的是 GPT-4 技術,寫申論題的表現跟醫學生差不多,評分老師常常分不出 AI 和真人寫的差別。這代表未來 AI 影響下,學生和老師都更需要加強批判性思考和反思能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

**引言** 人工智慧(AI)在醫學領域受到廣泛關注,尤其是大型語言模型(LLMs)如ChatGPT的興起,使其對醫學生更具可及性。本研究探討醫學生如何使用基於LLM的工具及其看法。 **方法** 2024年1月,佛羅里達大學醫學院對醫學生進行調查,評估他們對AI和LLM工具的使用情況及看法。 **結果** 102名受訪者中,69%每月至少使用一次這些工具,77.1%認為信息準確,80%有意在未來繼續使用。對AI有基本了解的學生更可能使用這些工具並進行信息交叉檢查。接觸過AI的學生對臨床決策中信任AI的可能性更高。 **結論** 基於LLM的聊天機器人已成為醫學生學習的重要資源,醫學生普遍對其持正面看法,並希望在課程中納入AI,以準備未來的實踐。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI

這項研究發現,GPT-4 在挪威醫學考試中表現優異,評分結果接近人類,能處理專業醫學用語。GPT-4 有潛力提供即時、個人化回饋,幫助學生學習,但實際應用時仍需教師持續監督,確保負責任的使用。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

這項研究發現,ChatGPT能有效分析醫學生訪談逐字稿,評估其對醫病關係的隱性態度,評分結果和專家高度一致,分類準確度也不錯(約0.8-0.85)。不過,ChatGPT抓到的重點片段較少,未來還需要用更多元的樣本來驗證。 PubMed DOI