Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Appropriateness of Thyroid Nodule Cancer Risk Assessment and Management Recommendations Provided by Large Language Models.
大型語言模型提供的甲狀腺結節癌風險評估與管理建議的適當性。 J Imaging Inform Med 2025-03-03

這項研究評估了大型語言模型（LLMs）如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性，並與美國甲狀腺協會（ATA）及全國綜合癌症網絡（NCCN）的指導方針進行比較。322名放射科醫生參與評估，結果顯示Claude得分最高，其次是ChatGPT和Gemini。雖然不當回應比率相似，但ChatGPT在準確性上表現最佳。質性反饋指出，ChatGPT清晰且結構良好，Gemini則可及性高但內容淺薄，Claude組織性佳但偶爾偏離主題。總體而言，這些模型在輔助風險評估上有潛力，但仍需臨床監督以確保可靠性。 PubMed DOI

Assessments of lung nodules by an artificial intelligence chatbot using longitudinal CT images.
利用人工智慧聊天機器人對肺結節進行評估，基於縱向 CT 圖像。 Cell Rep Med 2025-03-05

這項研究評估了GPT-4o模型在分析647名患者的肺結節長期CT掃描的效果。結果顯示，該模型在預測肺結節的惡性程度上達到0.88的準確率，與病理結果相符；在結節大小測量上，與放射科醫生的結果一致性高達0.91。此外，六位放射科醫生的評估中，GPT-4o在捕捉結節特徵變化方面獲得了4.17的高分。整體來看，研究顯示GPT-4o能有效追蹤肺結節的變化，對臨床決策提供了重要支持。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

An assessment of ChatGPT in error detection for thyroid ultrasound reports: A comparative study with ultrasound physicians.
對於甲狀腺超音波報告中錯誤檢測的 ChatGPT 評估：與超音波醫師的比較研究。 Digit Health 2025-03-17

這項研究評估了GPT-4o在識別ACR TIRADS超音波報告錯誤的有效性及其加速報告生成的能力。分析了福建醫科大學第二附屬醫院的200份甲狀腺超音波報告，結果顯示GPT-4o成功檢測到90%的錯誤，接近資深醫師的93%。在效率上，GPT-4o的審查速度明顯快於醫師，平均只需0.79小時，而醫師則需1.8到3.1小時。研究結果顯示，GPT-4o不僅在錯誤檢測上表現優異，還能顯著提升報告處理效率，對於改善診斷準確性及支持住院醫師非常有幫助。 PubMed DOI

Assessing the accuracy of the GPT-4 model in multidisciplinary tumor board decision prediction.
評估 GPT-4 模型在多學科腫瘤委員會決策預測中的準確性。 Clin Transl Oncol 2025-03-26

這項研究評估了多學科腫瘤委員會（MTBs）與GPT-4人工智慧在癌症病患管理中的決策一致性。研究於2021年2月至2023年6月在安卡拉大學醫院進行，涵蓋610名癌症病患。結果顯示，GPT-4的預測與MTB決策的相容性得分為3.59，顯示高度一致性，但有10.2%的案例得分低於可接受範圍，需進一步審查。專家發現GPT-4在12.9%到25.8%的案例中不適當，顯示其在複雜或罕見案例中的限制。整體而言，GPT-4在腫瘤決策中具輔助潛力。 PubMed DOI

ChatGPT-4's Accuracy in Estimating Thyroid Nodule Features and Cancer Risk from Ultrasound Images.
ChatGPT-4 在從超聲影像估計甲狀腺結節特徵和癌症風險方面的準確性。 Endocr Pract 2025-03-26

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現，使用了202張超音波影像。結果顯示，GPT-4在大多數類別中具高特異性但低敏感性，對低風險結節的敏感性僅25%，而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好，但在其他特徵上則不理想。整體來看，這些模型在臨床應用前仍需改進和驗證。 PubMed DOI

Diagnostic accuracy of ChatGPT-4 in orthopedic oncology: a comparative study with residents.
ChatGPT-4 在骨科腫瘤診斷準確性的表現：與住院醫師的比較研究 Knee 2025-05-01

這項研究發現，骨科住院醫師在判讀肌肉骨骼腫瘤切片的正確率（55%）明顯高於ChatGPT-4（25–33%）。兩者在某些腫瘤類型，特別是軟組織肉瘤上表現都不理想。目前ChatGPT-4還不適合獨立用於臨床診斷，未來還需要更專業的AI模型和進一步研究。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表