Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Using Generative AI to Extract Structured Information from Free Text Pathology Reports.
使用生成式人工智慧從自由文本病理報告中提取結構化資訊。 J Med Syst 2025-03-13

這項研究顯示生成式人工智慧在自動化將非結構化病理報告轉為結構化格式方面的有效性，特別針對台北醫學大學醫院的乳腺癌報告。研究人員使用ChatGPT大型語言模型，透過Streamlit網頁應用程式達到99.61%的準確率，並顯著縮短處理時間，優於傳統方法。雖然目前僅限於單一機構及乳腺癌報告，但未來計畫將擴展至其他癌症類型並進行外部驗證，以確保系統的穩健性。總體而言，這顯示人工智慧能有效提升病理報告處理效率，促進生物醫學研究的進步。 PubMed DOI

An assessment of ChatGPT in error detection for thyroid ultrasound reports: A comparative study with ultrasound physicians.
對於甲狀腺超音波報告中錯誤檢測的 ChatGPT 評估：與超音波醫師的比較研究。 Digit Health 2025-03-17

這項研究評估了GPT-4o在識別ACR TIRADS超音波報告錯誤的有效性及其加速報告生成的能力。分析了福建醫科大學第二附屬醫院的200份甲狀腺超音波報告，結果顯示GPT-4o成功檢測到90%的錯誤，接近資深醫師的93%。在效率上，GPT-4o的審查速度明顯快於醫師，平均只需0.79小時，而醫師則需1.8到3.1小時。研究結果顯示，GPT-4o不僅在錯誤檢測上表現優異，還能顯著提升報告處理效率，對於改善診斷準確性及支持住院醫師非常有幫助。 PubMed DOI

Using artificial intelligence (AI) for form and content checks of medical reports: Proofreading by ChatGPT4.0 in a neurology department.
使用人工智慧 (AI) 進行醫療報告的格式和內容檢查：在神經科部門中由 ChatGPT4.0 進行校對。 Z Evid Fortbild Qual Gesundhwes 2025-03-19

這項研究評估了ChatGPT 4.0在識別德國神經學報告錯誤的效果，並與人類專家比較。分析了十份報告，每份有十個語言錯誤和一個重要內容錯誤。結果顯示，使用第一個提示時，AI的準確率為35%，而第二個提示則達到75%。AI的處理速度明顯快於人類，第一個提示平均102.4秒，第二個209.4秒，人類則需374秒。研究指出，AI能有效協助醫療報告撰寫，且提示設計對結果影響重大。 PubMed DOI

Evaluation of error detection and treatment recommendations in nucleic acid test reports using ChatGPT models.
使用 ChatGPT 模型評估核酸檢測報告中的錯誤偵測與治療建議 Clin Chem Lab Med 2025-04-18

這項研究比較三款GPT模型在醫學檢驗報告錯誤偵測和治療建議的表現。結果顯示，GPT模型平均能準確抓出約九成錯誤，但對格式錯誤較不敏感。GPT的判斷和資深檢驗師幾乎一樣準，速度還更快。GPT-o1 mini偵錯最穩定，GPT-o1給治療建議最強，顯示AI有助提升檢驗室效率和臨床決策。 PubMed DOI

Enhancing Malignancy Detection and Tumor Classification in Pathology Reports: A Comparative Evaluation of Large Language Models.
提升病理報告中惡性腫瘤偵測與腫瘤分類的能力：大型語言模型的比較評估 Stud Health Technol Inform 2025-04-24

這項研究用GPT-4o和Llama3.3等大型語言模型，測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示，這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀，有機會讓癌症登記流程更快、更可靠，提升公共衛生和臨床照護品質。 PubMed DOI

Generative Large Language Models Trained for Detecting Errors in Radiology Reports.
用於偵測放射科報告錯誤的生成式大型語言模型 Radiology 2025-05-20

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現，發現經過微調的 Llama-3-70B-Instruct 模型最準確，F1 分數約 0.75–0.83。實測也證實，這模型能有效協助醫師找出報告錯誤，顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

Exploring the potential of AI-powered applications for clinical decision-making in gynecologic oncology.
探討人工智慧應用於婦科腫瘤臨床決策的潛力 Int J Gynaecol Obstet 2025-06-13

這項研究發現，GPT-4在乳癌和婦科癌症治療建議上表現尚可，乳癌案例與專家意見一致率最高達84%。雖然經過多次提示後表現有提升，但在正確性、完整性及手術、基因檢測建議上仍有限制。未來AI可輔助臨床決策，但專家把關還是很重要。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表