原始文章

這項研究比較了ChatGPT、Google Gemini和Claude三款AI在解讀甲狀腺結節惡性風險時,針對三大TIRADS系統的表現。分析90個案例後發現,三者評估結果有一定一致性,但在風險判斷上還是有明顯差異。提醒大家,臨床上用AI輔助判斷時,還是要多加小心,不要完全依賴AI結果。 PubMed DOI


站上相關主題文章列表

這項研究探討如何利用自然語言處理(NLP)和變壓器模型,從甲狀腺結節的超音波報告中分類 ACR TI-RADS 類別。研究分析了16,847份報告,並開發自動化系統來分配 TI-RADS 類別,隨後由放射科醫師進行審查。結果顯示,納入特定結節特徵的模型表現更佳,BERTIN 模型達到最高準確率0.8426。此外,某些特徵如點狀回聲焦點,與較高的 TI-RADS 分數有關,顯示詳細描述對預測惡性風險的重要性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性,並與美國甲狀腺協會(ATA)及全國綜合癌症網絡(NCCN)的指導方針進行比較。322名放射科醫生參與評估,結果顯示Claude得分最高,其次是ChatGPT和Gemini。雖然不當回應比率相似,但ChatGPT在準確性上表現最佳。質性反饋指出,ChatGPT清晰且結構良好,Gemini則可及性高但內容淺薄,Claude組織性佳但偶爾偏離主題。總體而言,這些模型在輔助風險評估上有潛力,但仍需臨床監督以確保可靠性。 PubMed DOI

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力,並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示,ChatGPT在回聲焦點的評估上與專家一致,但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT,顯示傳統醫學訓練的重要性。結論指出,ChatGPT可作為輔助診斷工具,但無法取代人類專業知識,並建議改善AI算法以增強其臨床實用性。 PubMed DOI

這項研究評估了GPT-4o在識別ACR TIRADS超音波報告錯誤的有效性及其加速報告生成的能力。分析了福建醫科大學第二附屬醫院的200份甲狀腺超音波報告,結果顯示GPT-4o成功檢測到90%的錯誤,接近資深醫師的93%。在效率上,GPT-4o的審查速度明顯快於醫師,平均只需0.79小時,而醫師則需1.8到3.1小時。研究結果顯示,GPT-4o不僅在錯誤檢測上表現優異,還能顯著提升報告處理效率,對於改善診斷準確性及支持住院醫師非常有幫助。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4TM,在提升甲狀腺多學科團隊(MDT)結果準確性方面的潛力。研究涵蓋30個甲狀腺病例,結果顯示MDT的判斷與英國甲狀腺協會的指導方針完全一致,達到100%的符合率。然而,AI生成的結果與MDT相比,只有67%的高度一致性,13%的病例則完全不一致。這顯示AI雖能簡化決策過程,但在缺乏臨床醫師驗證的情況下,仍無法完全依賴。 PubMed DOI

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現,並與住院醫師進行比較。分析了1,145張影像,結果顯示GPT-4對惡性結節的正確識別率為58.07%,良性結節為66.86%;而住院醫師則分別為73.89%和74.66%。在統計上,GPT-4的準確性顯著低於醫師,尤其是對小於1公分的結節。總體來看,GPT-4在甲狀腺結節分類上有潛力,但仍需改進。 PubMed DOI

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現,使用了202張超音波影像。結果顯示,GPT-4在大多數類別中具高特異性但低敏感性,對低風險結節的敏感性僅25%,而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好,但在其他特徵上則不理想。整體來看,這些模型在臨床應用前仍需改進和驗證。 PubMed DOI

這項回溯性研究發現,ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時,表現比資淺放射科醫師更好,和資深醫師差不多。它預測惡性腫瘤的準確度高(AUC 0.82,準確率80.63%,敏感度90.56%,特異度73.51%)。若把ChatGPT-4納入影像判讀流程,能進一步提升醫師診斷準確率,減少不同醫師間的判讀差異。 PubMed DOI

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現,發現商業版 o3 準確度和一致性最好,但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助,但提升有限。總結來說,這些 AI 工具還不夠成熟,還需要再改進才能安全用在臨床診斷上。 PubMed DOI