原始文章

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間,比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差,但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具,因為它準確且有邏輯性。 PubMed DOI

研究發現,ChatGPT能通過美國醫學執照考試的多項選擇題,但在臨床推理方面表現尚待提升。研究人員使用14個醫學案例對ChatGPT進行自由回答測試,通過率為43%,得分範圍波動大。這顯示人工智慧如ChatGPT可能對醫學教育和實踐產生影響。 PubMed DOI

研究發現,ChatGPT在醫學生簡答評估中表現優於低分同學,但不及歷史平均水準。對於困難學生的干預仍有疑慮,需要進一步探討ChatGPT在高認知推理評估中的表現。 PubMed DOI

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

大型語言模型(LLMs)如ChatGPT-3.5在醫學教育中有應用,可填補知識空白、協助鑑別診斷、挑戰假設、支援決策、改善護理管理,甚至進行困難對話、倫理教學。儘管有擔憂,但已有行為準則指導使用。ChatGPT對病房學習有潛力,但仍需進一步研究。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

研究顯示,ChatGPT在英國研究生醫學考試中的表現有明顯差異。ChatGPT-3.5在MRCP Part 1考試中得66.4%,而ChatGPT-4則提升至84.8%,兩者均超過及格標準。不過,ChatGPT-3.5在九場考試中有八場未通過,平均分數低於及格標準5.0%;相對地,ChatGPT-4在十一場考試中通過九場,平均分數高出13.56%。儘管成績進步,但兩者仍有產生錯誤資訊的問題,這對其在醫學教育中的應用造成挑戰。 PubMed DOI

這項研究探討了使用GPT-4模型,透過與模擬病人聊天機器人的互動,為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生,分析了106次對話中的1,894個問答對。結果顯示,GPT-4的回應在99%以上是醫學上合理的,且與人類評分者的協議幾乎完美(Cohen κ=0.832)。不過,在45個反饋類別中,有8個類別出現差異,顯示模型評估可能過於具體或與人類判斷不同。總體而言,研究認為GPT-4在提供結構化反饋上有效,並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI