Examining the Threat of ChatGPT to the Validity of Short Answer Assessments in an Undergraduate Medical Program.
ChatGPT對大學醫學課程短答案評估效度的威脅檢驗。 J Med Educ Curric Dev 2023-10-04

研究發現，ChatGPT在醫學生簡答評估中表現優於低分同學，但不及歷史平均水準。對於困難學生的干預仍有疑慮，需要進一步探討ChatGPT在高認知推理評估中的表現。 PubMed DOI

A large-scale comparison of human-written versus ChatGPT-generated essays.
人類撰寫與 ChatGPT 生成的文章之大規模比較。 Sci Rep 2023-11-02

ChatGPT等生成式AI模型廣泛運用，將對教育和資訊生成產生重大影響。研究指出，AI文章品質較高，風格與人寫不同。建議教育工作者應融入AI技術，重新思考作業方式，並運用AI工具提升學習成效。 PubMed DOI

Two artificial intelligence models underperform on examinations in a veterinary curriculum.
兩個人工智慧模型在獸醫課程考試中表現不佳。 J Am Vet Med Assoc 2024-02-22

人工智慧和大型語言模型如ChatGPT帶來新教育機會，但在醫學和獸醫科學等領域仍在發展。教育工作者需熟悉這些模型，提升學生學習，負責任使用。研究發現GPT-4.0優於GPT-3.5，但對獸醫學生表現不佳，顯示在獸醫教育中使用人工智慧平台需謹慎。 PubMed DOI

Digital Ink and Surgical Dreams: Perceptions of Artificial Intelligence-Generated Essays in Residency Applications.
數位墨水與手術夢想：對人工智慧生成的住院醫師申請論文的看法。 J Surg Res 2024-07-23

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI（如ChatGPT）撰寫的文章。研究生成了十篇文章，五篇由住院醫師撰寫，五篇由ChatGPT生成。十位教職員進行盲評，結果顯示兩組文章的得分差異不大，ChatGPT的平均得分為66.0%，人類為70.0%。教職員在識別文章來源上也面臨困難，顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

Artificial intelligence: Reducing inconsistency in the surgical residency application review process.
人工智慧：減少外科住院醫師申請審查過程中的不一致性。 Am J Surg 2024-07-30

將人工智慧（AI）融入一般外科住院醫師訓練的招募過程，顯示出能改善傳統審查方法的不足。本研究評估了AI，特別是ChatGPT，在醫學生表現評估（MSPE）信件中的穩定性，並與經驗豐富的人類審查者比較。結果顯示，ChatGPT的評分一致性優於人類，但也有其局限性。這強調了在此背景下謹慎使用AI的必要性。雖然AI有助於改善住院醫師選拔，但仍需進一步研究以全面了解其能力與影響。 PubMed DOI

Reliability of ChatGPT in automated essay scoring for dental undergraduate examinations.
ChatGPT 在牙科本科考試自動評分中的可靠性。 BMC Med Educ 2024-09-03

這項研究探討了ChatGPT在口腔與顏面外科考試中對牙科本科生的自動化作文評分（AES）可靠性，並與人類評估者進行比較。69名新加坡國立大學的學生參加了考試，結果顯示第一道題目的AES與人類評分有強相關性，而第二道題目則中等相關。評分者之間的一致性和可靠性都很高。研究指出，ChatGPT在作文評分上有潛力，但設計有效的評分標準對於提升可靠性非常重要。隨著進一步驗證，ChatGPT可望協助自我評估及自動化評分。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

Comparing Scoring Consistency of Large Language Models with Faculty for Formative Assessments in Medical Education.
比較大型語言模型與教師在醫學教育形成性評估中的評分一致性。 J Gen Intern Med 2024-10-14

這項研究探討了使用大型語言模型（LLM），特別是ChatGPT 3.5，來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現，ChatGPT與教師評分的協議率達67%，顯示出合理的一致性，且能有效減少教師評分時間五倍，潛在節省約150小時。總體而言，這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估，減輕教師負擔。 PubMed DOI

ChatGPT as a prospective undergraduate and medical school student.
作為一名未來的本科生和醫學院學生的 ChatGPT。 PLoS One 2024-10-23

這篇文章探討了一項實驗，對比了ChatGPT-4和ChatGPT-3.5在SAT、BMAT和IMSAT等入學考試的表現。結果顯示，ChatGPT-4的表現明顯優於前一版本，SAT考試得分進入前10%，並且能夠取得進入頂尖義大利醫學院的分數。研究還分析了錯誤答案，找出了ChatGPT-4的三種邏輯和計算錯誤，突顯了其弱點，並提出了在教育中有效運用AI的建議，儘管仍有一些限制。 PubMed DOI

Can ChatGPT Fool the Match? Artificial Intelligence Personal Statements for Plastic Surgery Residency Applications: A Comparative Study.
人工智慧能否欺騙配對？整形外科住院醫師申請的個人陳述：一項比較研究。 Plast Surg (Oakv) 2024-11-18

這項研究探討了ChatGPT生成的整形外科住院醫師個人陳述是否能與人類撰寫的內容相媲美。研究結果顯示，AI生成的陳述平均得分為7.48，而人類撰寫的為7.68，兩者之間並無顯著差異。評估者對於陳述來源的識別準確率為65.9%，顯示AI生成的內容越來越精緻。這強調了在住院醫師申請中，需更新評估標準以應對人工智慧的影響。 PubMed DOI

原始文章

站上相關主題文章列表