原始文章

這項研究探討了ChatGPT生成的整形外科住院醫師個人陳述是否能與人類撰寫的內容相媲美。研究結果顯示,AI生成的陳述平均得分為7.48,而人類撰寫的為7.68,兩者之間並無顯著差異。評估者對於陳述來源的識別準確率為65.9%,顯示AI生成的內容越來越精緻。這強調了在住院醫師申請中,需更新評估標準以應對人工智慧的影響。 PubMed DOI


站上相關主題文章列表

ChatGPT是OpenAI在2022年推出的AI語言模型。研究發現,它在整形外科住院醫師考試中表現良好,但在更高級別的醫師中表現較差。儘管在醫療和教育領域有潛力,仍需進一步研究確認其效用。 PubMed DOI

AI程式幫麻醉科住院醫師寫個人陳述,著重運動和美食烹飪經驗,得到主任高評價。研究指出AI如ChatGPT能有效模擬真實申請者,提供快速、省錢、高品質替代方案,適用於麻醉科住院醫師的個人陳述。 PubMed DOI

研究比較ChatGPT生成的個人陳述和申請者寫的陳述,發現兩者在評分上沒有明顯差異,顯示ChatGPT生成的陳述品質不輸給申請者。建議重新檢視整形外科住院醫師申請格式,以更全面評估學生。 PubMed DOI

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異,PSITE考試準確率達79%,但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎,因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI(如ChatGPT)撰寫的文章。研究生成了十篇文章,五篇由住院醫師撰寫,五篇由ChatGPT生成。十位教職員進行盲評,結果顯示兩組文章的得分差異不大,ChatGPT的平均得分為66.0%,人類為70.0%。教職員在識別文章來源上也面臨困難,顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

將人工智慧(AI)融入一般外科住院醫師訓練的招募過程,顯示出能改善傳統審查方法的不足。本研究評估了AI,特別是ChatGPT,在醫學生表現評估(MSPE)信件中的穩定性,並與經驗豐富的人類審查者比較。結果顯示,ChatGPT的評分一致性優於人類,但也有其局限性。這強調了在此背景下謹慎使用AI的必要性。雖然AI有助於改善住院醫師選拔,但仍需進一步研究以全面了解其能力與影響。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究探討外科住院醫師申請審核者辨識AI生成的個人陳述的能力及其看法。研究使用ChatGPT創建三份AI陳述,並與三份成功申請的醫學生陳述比較。結果顯示,審核者正確辨識AI陳述的比例僅59%,且66.7%的人反對在個人陳述中使用AI。大多數參與者認為AI會影響他們對申請者的看法。這項研究強調了辨識AI生成內容的挑戰,並對其在住院醫師申請中的影響表示擔憂。 PubMed DOI

這項研究探討了生成式人工智慧工具(如ChatGPT和Google BARD)在醫學生撰寫住院醫師申請個人陳述的表現。研究發現,教職員能正確識別88%的真實陳述和90%的BARD生成陳述,但只有44%的ChatGPT陳述被正確辨識。整體準確率為74%。雖然AI能生成有說服力的陳述,但在表現人文和個人化元素上仍有不足。因此,住院醫師選拔委員會應重視這些人性化指標,以提升評估的準確性。 PubMed DOI