原始文章

這項研究顯示生成式人工智慧,特別是OpenAI的GPT-4 Turbo API,在提升放射學訓練方面的潛力。研究發現,這個AI模型能檢測到的差異明顯多於專業放射科醫師,顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異,但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當,顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性,並探討AI反饋對實習生的長期影響。 PubMed DOI


站上相關主題文章列表

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 PubMed DOI

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究探討了GPT-3.5在為放射科住院醫師生成回饋的有效性,並與人類撰寫的評論進行比較。隨著加拿大放射科課程實施能力為基礎的醫學教育,對敘述性回饋的需求增加。研究分析了28位教職員對10位住院醫師的110條評論,發現人類撰寫的回饋通常較長且具體,而GPT生成的評論則較模糊。人類評分者的準確率為80.5%,而GPT-3.5僅50%。結果顯示,GPT-3.5尚無法達到人類回饋的具體性,未來需改進算法以提升AI回饋質量。 PubMed DOI

這項研究探討利用大型語言模型(LLM)來識別放射學教學案例的可行性,結果顯示微調後的RadBERT模型在識別差異方面表現優異,整體準確率達90.5%。隨著差異分數提高,模型的敏感性也顯著改善,特別是在重大差異的識別上。研究還與其他模型進行比較,增強了結果的可靠性。雖然結果令人鼓舞,但實施時需考慮整合流程及用戶培訓。總體而言,這項研究顯示LLM在放射學教育中的潛力,未來應持續關注實際應用與評估。 PubMed DOI

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

這項研究探討了一個專門的多模態生成式人工智慧模型在胸部X光片解讀上的影響,評估其診斷準確性和臨床價值。該模型基於42家醫院18年的X光片報告數據訓練,並在多個公共數據集上測試。 主要發現包括: - 模型對氣胸和皮下氣腫的檢測敏感度分別為95.3%和92.6%。 - 報告接受率:人工智慧模型70.5%、放射科醫師73.3%、GPT-4Vision僅29.6%。 - 人工智慧模型的報告獲得最高一致性和質量評分,顯示其可靠性優於GPT-4Vision。 總結來說,這項研究顯示專門的人工智慧模型在放射學診斷中具備顯著潛力。 PubMed DOI

這項研究發現,GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%,跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時,GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI