The added value of including thyroid nodule features into large language models for automatic ACR TI-RADS classification based on ultrasound reports.
將甲狀腺結節特徵納入大型語言模型以自動化 ACR TI-RADS 分類的附加價值，基於超聲報告。 Jpn J Radiol 2024-11-25

這項研究探討如何利用自然語言處理（NLP）和變壓器模型，從甲狀腺結節的超音波報告中分類 ACR TI-RADS 類別。研究分析了16,847份報告，並開發自動化系統來分配 TI-RADS 類別，隨後由放射科醫師進行審查。結果顯示，納入特定結節特徵的模型表現更佳，BERTIN 模型達到最高準確率0.8426。此外，某些特徵如點狀回聲焦點，與較高的 TI-RADS 分數有關，顯示詳細描述對預測惡性風險的重要性。 PubMed DOI

The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

Appropriateness of Thyroid Nodule Cancer Risk Assessment and Management Recommendations Provided by Large Language Models.
大型語言模型提供的甲狀腺結節癌風險評估與管理建議的適當性。 J Imaging Inform Med 2025-03-03

這項研究評估了大型語言模型（LLMs）如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性，並與美國甲狀腺協會（ATA）及全國綜合癌症網絡（NCCN）的指導方針進行比較。322名放射科醫生參與評估，結果顯示Claude得分最高，其次是ChatGPT和Gemini。雖然不當回應比率相似，但ChatGPT在準確性上表現最佳。質性反饋指出，ChatGPT清晰且結構良好，Gemini則可及性高但內容淺薄，Claude組織性佳但偶爾偏離主題。總體而言，這些模型在輔助風險評估上有潛力，但仍需臨床監督以確保可靠性。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

An assessment of ChatGPT in error detection for thyroid ultrasound reports: A comparative study with ultrasound physicians.
對於甲狀腺超音波報告中錯誤檢測的 ChatGPT 評估：與超音波醫師的比較研究。 Digit Health 2025-03-17

這項研究評估了GPT-4o在識別ACR TIRADS超音波報告錯誤的有效性及其加速報告生成的能力。分析了福建醫科大學第二附屬醫院的200份甲狀腺超音波報告，結果顯示GPT-4o成功檢測到90%的錯誤，接近資深醫師的93%。在效率上，GPT-4o的審查速度明顯快於醫師，平均只需0.79小時，而醫師則需1.8到3.1小時。研究結果顯示，GPT-4o不僅在錯誤檢測上表現優異，還能顯著提升報告處理效率，對於改善診斷準確性及支持住院醫師非常有幫助。 PubMed DOI

Can Artificial Intelligence Software be Utilised for Thyroid Multi-Disciplinary Team Outcomes?
人工智慧軟體能否用於甲狀腺多學科團隊的成果？ Clin Otolaryngol 2025-03-20

這項研究探討了人工智慧，特別是ChatGPT-4TM，在提升甲狀腺多學科團隊（MDT）結果準確性方面的潛力。研究涵蓋30個甲狀腺病例，結果顯示MDT的判斷與英國甲狀腺協會的指導方針完全一致，達到100%的符合率。然而，AI生成的結果與MDT相比，只有67%的高度一致性，13%的病例則完全不一致。這顯示AI雖能簡化決策過程，但在缺乏臨床醫師驗證的情況下，仍無法完全依賴。 PubMed DOI

Comparison of the accuracy of GPT-4 and resident physicians in differentiating benign and malignant thyroid nodules.
GPT-4 與住院醫師在區分良性與惡性甲狀腺結節準確性的比較。 Front Artif Intell 2025-03-20

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現，並與住院醫師進行比較。分析了1,145張影像，結果顯示GPT-4對惡性結節的正確識別率為58.07%，良性結節為66.86%；而住院醫師則分別為73.89%和74.66%。在統計上，GPT-4的準確性顯著低於醫師，尤其是對小於1公分的結節。總體來看，GPT-4在甲狀腺結節分類上有潛力，但仍需改進。 PubMed DOI

ChatGPT-4's Accuracy in Estimating Thyroid Nodule Features and Cancer Risk from Ultrasound Images.
ChatGPT-4 在從超聲影像估計甲狀腺結節特徵和癌症風險方面的準確性。 Endocr Pract 2025-03-26

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現，使用了202張超音波影像。結果顯示，GPT-4在大多數類別中具高特異性但低敏感性，對低風險結節的敏感性僅25%，而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好，但在其他特徵上則不理想。整體來看，這些模型在臨床應用前仍需改進和驗證。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

A Multimodal Large Language Model as an End-to-End Classifier of Thyroid Nodule Malignancy Risk: Usability Study.
多模態大型語言模型作為甲狀腺結節惡性風險的端對端分類器：可用性研究 JMIR Form Res 2025-08-19

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現，發現商業版 o3 準確度和一致性最好，但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助，但提升有限。總結來說，這些 AI 工具還不夠成熟，還需要再改進才能安全用在臨床診斷上。 PubMed DOI

原始文章

站上相關主題文章列表