原始文章

這項研究評估了ChatGPT-4在為臨床前醫學生創建急性哮喘模擬的有效性。結果顯示,所有模擬都符合基本醫學準確性。進階參數方面,55%的模擬提供延遲反饋,正確組與錯誤組的反饋效果差異明顯。79%的模擬能自主得出結論,且在全面反饋上兩組表現相近。總結來說,ChatGPT-4在基本模擬上表現優異,但延遲反饋的效果受使用者輸入影響,建議未來需進一步研究以確保其在不同情境下的穩定性。 PubMed DOI


站上相關主題文章列表

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後,發現ChatGPT正確回答49%的案例,整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制,但它在教育上顯示出潛力,能有效排除某些鑑別診斷並建議後續步驟,讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現,特別是GPT-3.5和GPT-4.0版本。研究發現,GPT-4.0的及格率為72.7%,明顯高於GPT-3.5的54%。此外,GPT-4.0的回答變異性較低,且在15個醫學子專科中有14個超過準確性門檻,顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言,GPT-4.0在準確性和一致性上表現更佳,值得進一步探索。 PubMed DOI

這項研究探討了使用GPT-4模型,透過與模擬病人聊天機器人的互動,為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生,分析了106次對話中的1,894個問答對。結果顯示,GPT-4的回應在99%以上是醫學上合理的,且與人類評分者的協議幾乎完美(Cohen κ=0.832)。不過,在45個反饋類別中,有8個類別出現差異,顯示模型評估可能過於具體或與人類判斷不同。總體而言,研究認為GPT-4在提供結構化反饋上有效,並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

最近的研究顯示,像ChatGPT這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE),但對其在特定醫學領域的表現缺乏深入分析。研究比較了不同版本的ChatGPT(GPT-3.5、GPT-4和GPT-4 Omni)在750道臨床情境選擇題中的準確性。結果顯示,GPT-4 Omni的準確率最高,達90.4%,顯著超過其他版本及醫學生的平均準確率。這顯示出其在醫學教育中的潛在價值,但也強調了謹慎整合LLMs的重要性。 PubMed DOI

最近的研究顯示,像 ChatGPT 這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE)。本研究評估了不同版本的 ChatGPT(GPT-3.5、GPT-4 和 GPT-4 Omni)在醫學學科及臨床技能方面的表現。結果顯示,GPT-4 Omni 的準確率最高,達到90.4%,明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力,但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究探討了使用ChatGPT-4o作為虛擬病人,協助醫學實習生的臨床訓練。研究在艾登阿德南門德雷斯大學進行,21名六年級醫學生參與,透過問卷、訪談和觀察收集數據。結果顯示,實習生的自我評估與實際表現正相關,但在問題解決和臨床推理上存在明顯差距,且時間壓力加劇不安感。儘管面臨技術問題,實習生對AI輔助訓練表示滿意,並願意參加類似訓練。研究建議ChatGPT-4o可成為提升臨床技能的有效工具。 PubMed DOI