Preliminary assessment of automated radiology report generation with generative pre-trained transformers: comparing results to radiologist-generated reports.
利用生成式預訓練轉換器進行自動放射學報告生成的初步評估：與放射科醫師生成的報告進行比較。 Jpn J Radiol 2024-02-06

研究比較了GPT模型和放射科醫師生成放射學報告的表現，結果顯示GPT-4在準確性上優於GPT-2和GPT-3.5，但仍不及醫師。醫師在印象和鑑別診斷方面表現較佳。GPT-3.5和GPT-4生成的報告可讀性高，但準確性仍需醫師驗證。 PubMed DOI

Assessing the Ability of a Large Language Model to Score Free-Text Medical Student Clinical Notes: Quantitative Study.
評估大型語言模型對醫學生自由文本臨床筆記進行評分的能力：定量研究。 JMIR Med Educ 2024-08-09

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果，並與標準化病人進行比較。研究涵蓋168名學生，結果顯示ChatGPT的錯誤評分率僅1.0%，而標準化病人則為7.2%。平均錯誤數方面，ChatGPT為12，標準化病人則高達85，且差異顯著（P=.002）。這項研究顯示，GPT模型在評分臨床筆記上具有潛力，未來可能在醫療教育中提供即時反饋，標誌著醫學教育的一大進步。 PubMed DOI

From Revisions to Insights: Converting Radiology Report Revisions into Actionable Educational Feedback Using Generative AI Models.
從修訂到洞察：利用生成式 AI 模型將放射學報告修訂轉化為可行的教育反饋。 J Imaging Inform Med 2024-08-19

這項研究顯示生成式人工智慧，特別是OpenAI的GPT-4 Turbo API，在提升放射學訓練方面的潛力。研究發現，這個AI模型能檢測到的差異明顯多於專業放射科醫師，顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異，但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當，顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性，並探討AI反饋對實習生的長期影響。 PubMed DOI

GPT-4o's competency in answering the simulated written European Board of Interventional Radiology exam compared to a medical student and experts in Germany and its ability to generate exam items on interventional radiology: a descriptive study.
GPT-4o 在回答模擬歐洲介入放射學考試中的能力，與德國的醫學生和專家相比，以及其生成介入放射學考題的能力：一項描述性研究。 J Educ Eval Health Prof 2024-08-20

這項研究評估了ChatGPT-4o在模擬歐洲介入放射學委員會（EBIR）考試的表現，正確率達67.0%。GPT-4o還為醫學生和EBIR考生生成不同難度的考題。四位參與者的表現顯示，醫學生在學生級別考題得分46.0%，EBIR持有者在學生級別得74.0%。所有參與者對學生級別考題的正確回答率在82.0%至92.0%之間，顯示其訓練效果良好，且僅有0.3%的考題被認為不合理。總體來看，GPT-4o在模擬EBIR考試及生成考題方面表現出色。 PubMed DOI

Enhancing radiology training with GPT-4: Pilot analysis of automated feedback in trainee preliminary reports.
利用 GPT-4 增強放射科訓練：對實習生初步報告自動反饋的初步分析。 Curr Probl Diagn Radiol 2024-08-23

這項研究探討如何利用大型語言模型（LLMs）來提升放射科住院醫師的回饋，特別是找出他們初步報告中遺漏的診斷。研究分析了500對初步與最終報告，使用的LLM（GPT-4）成功識別出24個獨特的遺漏診斷，敏感度達79.2%。來自14位住院醫師的回饋顯示，他們對LLM生成的回饋滿意度平均為3.50，感知準確度為3.64（滿分5分）。大多數醫師偏好將LLM回饋與傳統回饋結合，顯示LLMs能有效補充傳統回饋方法。 PubMed DOI

Evaluation of GPT Large Language Model Performance on RSNA 2023 Case of the Day Questions.
RSNA 2023 每日案例問題中 GPT 大型語言模型表現的評估。 Radiology 2024-10-01

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現，並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例，結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中，醫師的表現並未顯著優於GPT-4V。特別是，GPT-4V在僅使用文字輸入時的準確率較高（50%），而僅使用影像輸入則為38%。總體來看，GPT-4V的表現與人類相當，且未能提升人類的解讀準確性。 PubMed DOI

Testing the Ability and Limitations of ChatGPT to Generate Differential Diagnoses from Transcribed Radiologic Findings.
測試 ChatGPT 生成放射學發現的鑑別診斷能力與限制。 Radiology 2024-10-15

這項研究評估了ChatGPT（GPT-3.5和GPT-4）在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例，結果顯示GPT-4的準確性較高，正確診斷比例為66.1%，而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳，但兩者在重複性上仍有問題。總體來看，ChatGPT在醫學上可作為有用工具，但使用時需謹慎以避免不準確性。 PubMed DOI

Generative pre-trained transformer (GPT)-4 support for differential diagnosis in neuroradiology.
GPT-4 在神經放射學中對鑑別診斷的支持。 Quant Imaging Med Surg 2024-10-21

這項研究評估了GPT-4在神經放射學中生成鑑別診斷的效果，並與專業神經放射科醫師進行比較。研究分析了60份報告，結果顯示GPT-4在61.7%的案例中正確包含實際診斷，而醫師的準確率在63.3%到73.3%之間。GPT-4與醫師的協議程度被評為公平到中等。雖然GPT-4在輔助放射學工作上顯示潛力，但準確性仍不及人類專家，這強調了了解其局限性的重要性。 PubMed DOI

ChatGPT versus expert feedback on clinical reasoning questions and their effect on learning: a randomized controlled trial.
ChatGPT 與專家反饋在臨床推理問題上的比較及其對學習的影響：一項隨機對照試驗。 Postgrad Med J 2024-12-10

這項研究比較了ChatGPT生成的回饋與專家回饋對一年級醫學生臨床推理技能的影響。129名學生被隨機分為兩組，分別接受專家回饋和ChatGPT回饋。結果顯示，兩組在整體表現上沒有顯著差異，但對照組在複雜案例中表現較好。實驗組在了解AI角色後，對AI的批判性思維有明顯提升。這表明ChatGPT可作為專家回饋的替代方案，但在處理複雜案例上可能不足，並促進學生對AI的批判性認識。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

原始文章

站上相關主題文章列表