原始文章

這項研究探討了GPT-3.5在為放射科住院醫師生成回饋的有效性,並與人類撰寫的評論進行比較。隨著加拿大放射科課程實施能力為基礎的醫學教育,對敘述性回饋的需求增加。研究分析了28位教職員對10位住院醫師的110條評論,發現人類撰寫的回饋通常較長且具體,而GPT生成的評論則較模糊。人類評分者的準確率為80.5%,而GPT-3.5僅50%。結果顯示,GPT-3.5尚無法達到人類回饋的具體性,未來需改進算法以提升AI回饋質量。 PubMed DOI


站上相關主題文章列表

這項研究顯示生成式人工智慧,特別是OpenAI的GPT-4 Turbo API,在提升放射學訓練方面的潛力。研究發現,這個AI模型能檢測到的差異明顯多於專業放射科醫師,顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異,但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當,顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性,並探討AI反饋對實習生的長期影響。 PubMed DOI

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 PubMed DOI

這項研究探討個人化回饋對醫學教育學習成果的影響,特別是透過應用程式進行自我測試。德國醫學生參加隨機試驗,接受專家或ChatGPT的回饋。結果顯示,經常使用應用程式的學生在畢業考試中表現較佳,但兩種回饋的分數差異不大(ChatGPT 51.8%,專家 55.8%,p = 0.06)。研究建議需改善應用程式和回饋機制,以提升有效性,並對其他學術領域提供啟示。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

最近的人工智慧進展讓大型語言模型能針對特定領域進行客製化,像是醫學教育。本研究評估了一個專為提升醫學生和醫師臨床知識的客製化GPT模型,結果顯示其準確率達83.6%,高於一般AI模型。住院醫師對此模型的滿意度高,特別是它能促進學習獨立性和信心。這些發現顯示,客製化GPT有潛力改善醫學教育,但學習者和教育者仍需批判性地評估AI生成的內容。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在評估和修訂一年級住院醫師撰寫的放射科報告的效果,並與專業放射科醫師進行比較。分析了100份報告,根據六個準確性和完整性標準進行評估。結果顯示,GPT-4o 與人類醫師的意見一致性最高,住院醫師的報告技能在第一年內有顯著進步,尤其在前三個標準上。研究建議LLMs能有效協助住院醫師識別弱點並追蹤進展,減輕導師的工作負擔。 PubMed DOI

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

這項研究建立了一個自訂的GPT-3.5模型,用來評估一年級物理治療學生的解剖學作業,並將其表現與專業領域的專家進行比較。結果顯示,人工智慧的評分可以減輕工作負擔,同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)在放射學教育中的有效性,與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行,56名一年級醫學影像學生參加了兩場考試,分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似,且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜,但整體來看,AI能生成與人類專家相當的題目,顯示其在健康教育評估中的潛力。 PubMed DOI