原始文章

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI


站上相關主題文章列表

這項研究探討了ChatGPT生成的整形外科住院醫師個人陳述是否能與人類撰寫的內容相媲美。研究結果顯示,AI生成的陳述平均得分為7.48,而人類撰寫的為7.68,兩者之間並無顯著差異。評估者對於陳述來源的識別準確率為65.9%,顯示AI生成的內容越來越精緻。這強調了在住院醫師申請中,需更新評估標準以應對人工智慧的影響。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究比較了人類撰寫的神經外科文章與ChatGPT生成的文章,評估其品質差異。研究選取10篇文章,5篇由人類撰寫,5篇由ChatGPT撰寫,並由專家根據整體印象、可讀性等進行評估。結果顯示,兩者在整體品質上無顯著差異,但ChatGPT的可讀性較高。專家識別作者的準確率為61%,偏好幾乎相等。結論指出,ChatGPT能產出與人類相當的文章,且可讀性更佳,顯示其在學術寫作中的潛在價值。 PubMed DOI

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿,特別是使用ChatGPT 3.5。研究於2023年10月進行,51位醫師參與,隨機審閱三篇手稿。結果顯示,參與者識別作者的準確率不高,特異性55.6%,敏感性31.2%。高影響因子的手稿較易識別,而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之,研究顯示生成式AI的醫學手稿難以區分,凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

這項研究探討了ChatGPT-4在生成科學摘要方面的能力,分析了十篇來自PubMed的整形外科文章。研究使用Flesch-Kincaid年級水平和可讀性評分來評估生成的摘要。結果顯示,雖然ChatGPT生成的摘要在可讀性上略高,但評估者90%的時間偏好ChatGPT的版本,並認為其更清晰簡潔。整體來看,研究顯示ChatGPT能有效生成高品質的科學摘要,但仍需進一步研究來確認這些結果。 PubMed DOI

這篇文章評估ChatGPT-4o在撰寫整形外科文獻回顧的表現。雖然它在大綱規劃和摘要整理上表現不錯,但內容常太籠統,引用文獻也常出錯或亂編。21個參考文獻中,只有5個是真的。醫療專業人員也難分辨AI寫的摘要和真的。總之,ChatGPT能輔助寫作,但引用和內容都要再三查證。 PubMed DOI

這項研究比較四款AI聊天機器人在外科選擇題的表現,發現Copilot表現最佳,ChatGPT次之,Bard和Medical Chat較弱。各專科表現有落差,尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題,Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI

這項研究發現,雖然單純用ChatGPT-4修訂醫學會議摘要效果有限,但結合ChatGPT-4建議後再由研究人員編輯,摘要品質明顯提升。特別對經驗不足或語言能力較弱的研究人員幫助最大。不過,ChatGPT-4偶爾會出現事實錯誤,使用時仍需謹慎。 PubMed DOI