Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians.
評估 ChatGPT 作為醫學學習者和臨床醫師的診斷工具。 PLoS One 2024-07-31

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後，發現ChatGPT正確回答49%的案例，整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制，但它在教育上顯示出潛力，能有效排除某些鑑別診斷並建議後續步驟，讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

A Language Model-Powered Simulated Patient With Automated Feedback for History Taking: Prospective Study.
一個由語言模型驅動的模擬病人及自動反饋的病史採集：前瞻性研究。 JMIR Med Educ 2024-08-16

這項研究探討了使用GPT-4模型，透過與模擬病人聊天機器人的互動，為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生，分析了106次對話中的1,894個問答對。結果顯示，GPT-4的回應在99%以上是醫學上合理的，且與人類評分者的協議幾乎完美（Cohen κ=0.832）。不過，在45個反饋類別中，有8個類別出現差異，顯示模型評估可能過於具體或與人類判斷不同。總體而言，研究認為GPT-4在提供結構化反饋上有效，並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

Utility of large language models for creating clinical assessment items.
大型語言模型在創建臨床評估項目中的應用價值。 Med Teach 2024-08-26

這項研究比較了使用生成預訓練變壓器（GPT）與傳統方法開發的臨床與專業技能評估（CPSA）項目的有效性、考官看法及成本。研究對象為最後一年醫學生，開發了兩組各六個案例，其中一個是用GPT創建的。分析239名學生的表現，結果顯示兩者在難度和區分能力上無顯著差異。考官反饋認為GPT案例具挑戰性和現實性，且使用GPT可節省57%的成本。研究顯示GPT能以較低成本產生相似質量的CPSA項目，未來可探討其在其他臨床領域的應用。 PubMed DOI

Can AI-Generated Clinical Vignettes in Japanese Be Used Medically and Linguistically?
AI 生成的日本臨床小品文能否在醫學和語言學上使用？ J Gen Intern Med 2024-09-23

這項研究探討了使用生成式人工智慧GPT-4-0613來創建日文臨床小案例，評估其醫學和語法準確性。根據特定提示生成的202個小案例中，118個被認為「足夠有用且可立即使用」，78個「部分不足需修改」，只有6個在醫學準確性上被評為「不足」。語言準確性方面，142個案例得分較高，僅4個不足。總體來看，97%的案例經醫療專業人員確認後被視為實用，顯示人工智慧能顯著簡化臨床案例的創建過程。 PubMed DOI

ChatGPT versus expert feedback on clinical reasoning questions and their effect on learning: a randomized controlled trial.
ChatGPT 與專家反饋在臨床推理問題上的比較及其對學習的影響：一項隨機對照試驗。 Postgrad Med J 2024-12-10

這項研究比較了ChatGPT生成的回饋與專家回饋對一年級醫學生臨床推理技能的影響。129名學生被隨機分為兩組，分別接受專家回饋和ChatGPT回饋。結果顯示，兩組在整體表現上沒有顯著差異，但對照組在複雜案例中表現較好。實驗組在了解AI角色後，對AI的批判性思維有明顯提升。這表明ChatGPT可作為專家回饋的替代方案，但在處理複雜案例上可能不足，並促進學生對AI的批判性認識。 PubMed DOI

Accuracy, satisfaction, and impact of custom GPT in acquiring clinical knowledge: Potential for AI-assisted medical education.
自訂 GPT 在獲取臨床知識中的準確性、滿意度及影響：AI 輔助醫學教育的潛力。 Med Teach 2025-02-02

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化，像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型，結果顯示其準確率達83.6%，高於一般AI模型。住院醫師對此模型的滿意度高，特別是它能促進學習獨立性和信心。這些發現顯示，客製化GPT有潛力改善醫學教育，但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

ChatGPT 4.0 and algor in generating concept maps: an observational study.
ChatGPT 4.0 與 algor 在生成概念圖中的應用：一項觀察性研究。 Eur Arch Otorhinolaryngol 2025-02-20

這項研究評估了兩個人工智慧系統，ChatGPT 4.0 和 Algor，在生成耳鼻喉科概念圖的表現。八位專家根據概念識別、關係建立等標準進行評估。結果顯示，兩者各有優勢，ChatGPT 在交叉連結和佈局上表現佳，特別是鼻整形手術方面；而 Algor 在識別主題和區分概念上更出色，尤其在 BPVV 和鼓膜通氣管的指導方針中。研究建議需進一步探討 AI 在醫學教育中的應用潛力與限制。 PubMed DOI

Synthetic medical education in dermatology leveraging generative artificial intelligence.
運用生成式人工智慧於皮膚科的合成醫學教育 NPJ Digit Med 2025-05-04

GPT-4 這類大型語言模型能產出高品質、完整又準確的臨床案例，對醫學教育很有幫助，專家也給予高度肯定，認為風險和偏見都很低。不過，目前在族群多元性上還有待加強。未來若能補足這點，LLM 有機會讓醫學教育更大規模、也更客製化。 PubMed DOI

Iteratively refined ChatGPT outperforms clinical mentors in generating high-quality interprofessional education clinical scenarios: a comparative study.
經過多次優化的 ChatGPT 在產生高品質跨專業教育臨床情境方面優於臨床導師：一項比較研究 BMC Med Educ 2025-06-05

這項研究發現，透過反覆回饋修正，GPT-4o能快速產出高品質的跨專業教育臨床情境，品質甚至不輸人類導師設計，學生也分辨不出差異。這方法能有效減輕教師負擔，對資源有限的教學環境特別有幫助。 PubMed DOI

DeepSeek-R1 and GPT-4 are comparable in a complex diagnostic challenge: a historical control study.
DeepSeek-R1 與 GPT-4 在複雜診斷挑戰中的表現相當：一項歷史對照研究 Int J Surg 2025-06-12

DeepSeek-R1 是一款開源大型語言模型，醫療診斷表現和 GPT-4 差不多，正確診斷率分別為 35% 和 39%。不過，DeepSeek-R1 把正確診斷列入鑑別診斷的機率較低，且清單較長但多元。整體來說，DeepSeek-R1 準確度不輸 GPT-4，且有開源優勢，但在診斷排序上還有進步空間。 PubMed DOI

原始文章

站上相關主題文章列表