原始文章

這項研究探討了ChatGPT生成的整形外科住院醫師個人陳述是否能與人類撰寫的內容相媲美。研究結果顯示,AI生成的陳述平均得分為7.48,而人類撰寫的為7.68,兩者之間並無顯著差異。評估者對於陳述來源的識別準確率為65.9%,顯示AI生成的內容越來越精緻。這強調了在住院醫師申請中,需更新評估標準以應對人工智慧的影響。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI

這項研究探討生成式人工智慧(GAI)對耳鼻喉科住院醫師申請個人陳述的影響。研究比較GAI生成的陳述與成功申請者的陳述,並由21位評審進行10分制評分。結果顯示,GAI生成的陳述在真實性、可讀性、親和力和整體品質上均優於申請者的陳述。雖然GAI的陳述被認為結構良好,但評審者對AI生成內容的個人參與感到擔憂,這引發了對個人陳述角色及AI使用倫理的討論。 PubMed DOI

這項研究探討了ChatGPT-4在生成科學摘要方面的能力,分析了十篇來自PubMed的整形外科文章。研究使用Flesch-Kincaid年級水平和可讀性評分來評估生成的摘要。結果顯示,雖然ChatGPT生成的摘要在可讀性上略高,但評估者90%的時間偏好ChatGPT的版本,並認為其更清晰簡潔。整體來看,研究顯示ChatGPT能有效生成高品質的科學摘要,但仍需進一步研究來確認這些結果。 PubMed DOI

多數整形外科住院醫師訓練計畫主任認為個人陳述有點重要,但普遍認為用 ChatGPT 等 AI 協助撰寫是不道德的。只有少數計畫會用 AI 偵測工具,而且多數主任對辨識 AI 內容沒信心。雖然部分人接受有限度使用 AI(如發想、編輯),但超過一半主任認為寫個人陳述時用 ChatGPT 都不道德。 PubMed DOI

自從ChatGPT問世後,2024年皮膚科住院醫師申請的個人陳述中,AI生成內容明顯變多。研究分析1,500份資料,發現這幾年AI使用比例差異很大,統計上也有顯著差異。這顯示申請者越來越依賴AI,未來需要針對AI使用和揭露訂定更明確的規範。 PubMed DOI

這篇文章評估ChatGPT-4o在撰寫整形外科文獻回顧的表現。雖然它在大綱規劃和摘要整理上表現不錯,但內容常太籠統,引用文獻也常出錯或亂編。21個參考文獻中,只有5個是真的。醫療專業人員也難分辨AI寫的摘要和真的。總之,ChatGPT能輔助寫作,但引用和內容都要再三查證。 PubMed DOI

研究發現,脊椎外科醫師無法分辨ChatGPT和真人寫的fellowship自傳,且AI寫的自傳在可讀性和品質上表現更好,更容易獲得面試推薦。這顯示AI工具能產出高品質申請文件,也引發招生流程相關討論。 PubMed DOI

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題(不含圖片),正確率只有約 46%,明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好,但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說,ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed