原始文章

這項研究比較了ChatGPT、Google Gemini和Claude三款AI在解讀甲狀腺結節惡性風險時,針對三大TIRADS系統的表現。分析90個案例後發現,三者評估結果有一定一致性,但在風險判斷上還是有明顯差異。提醒大家,臨床上用AI輔助判斷時,還是要多加小心,不要完全依賴AI結果。 PubMed DOI


站上相關主題文章列表

這項研究比較了兩個人工智慧模型,ChatGPT-4.0 和 Llama 2,在甲狀腺癌診斷與治療的臨床決策輔助上。研究者根據NCCN指引,從58頁中提出167個問題,並標準化詢問這兩個模型。結果顯示,兩者在整體得分和準確性上並無顯著差異,顯示出有限但相似的能力來協助甲狀腺癌的管理。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4o和Claude 3-Opus,在超音波影像中分類甲狀腺結節的表現。研究涵蓋112位患者的116個結節,結果顯示ChatGPT-4o的Kappa值為0.116,Claude 3-Opus更低,僅0.034,而初級放射科醫師的Kappa值為0.450,顯示中等協議。ROC曲線方面,ChatGPT-4o的AUC為57.0%,Claude 3-Opus為52.0%,醫師則為72.4%。兩個LLM的不必要活檢率也高,分別為41.4%和43.1%,醫師僅12.1%。這顯示LLMs在醫學影像的診斷準確性仍有限,需謹慎使用。 PubMed DOI

這項研究探討如何利用自然語言處理(NLP)和變壓器模型,從甲狀腺結節的超音波報告中分類 ACR TI-RADS 類別。研究分析了16,847份報告,並開發自動化系統來分配 TI-RADS 類別,隨後由放射科醫師進行審查。結果顯示,納入特定結節特徵的模型表現更佳,BERTIN 模型達到最高準確率0.8426。此外,某些特徵如點狀回聲焦點,與較高的 TI-RADS 分數有關,顯示詳細描述對預測惡性風險的重要性。 PubMed DOI

這項研究比較了三種人工智慧語言模型—GPT-3.5、GPT-4o 和 Gemini—在提供甲狀腺眼病(TED)患者資訊的有效性。結果顯示,GPT-3.5的表現最佳,正確性得分5.75,可靠性得分5.68,特別在治療和手術選項上表現突出。GPT-4o和Gemini的得分較低,分別為5.32和5.10。研究認為,GPT-3.5是提供TED資訊的最佳選擇,建議臨床醫師在患者教育中使用。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性,並與美國甲狀腺協會(ATA)及全國綜合癌症網絡(NCCN)的指導方針進行比較。322名放射科醫生參與評估,結果顯示Claude得分最高,其次是ChatGPT和Gemini。雖然不當回應比率相似,但ChatGPT在準確性上表現最佳。質性反饋指出,ChatGPT清晰且結構良好,Gemini則可及性高但內容淺薄,Claude組織性佳但偶爾偏離主題。總體而言,這些模型在輔助風險評估上有潛力,但仍需臨床監督以確保可靠性。 PubMed DOI

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力,並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示,ChatGPT在回聲焦點的評估上與專家一致,但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT,顯示傳統醫學訓練的重要性。結論指出,ChatGPT可作為輔助診斷工具,但無法取代人類專業知識,並建議改善AI算法以增強其臨床實用性。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4TM,在提升甲狀腺多學科團隊(MDT)結果準確性方面的潛力。研究涵蓋30個甲狀腺病例,結果顯示MDT的判斷與英國甲狀腺協會的指導方針完全一致,達到100%的符合率。然而,AI生成的結果與MDT相比,只有67%的高度一致性,13%的病例則完全不一致。這顯示AI雖能簡化決策過程,但在缺乏臨床醫師驗證的情況下,仍無法完全依賴。 PubMed DOI

這項研究評估了GPT-4在超音波影像識別甲狀腺結節的表現,並與住院醫師進行比較。分析了1,145張影像,結果顯示GPT-4對惡性結節的正確識別率為58.07%,良性結節為66.86%;而住院醫師則分別為73.89%和74.66%。在統計上,GPT-4的準確性顯著低於醫師,尤其是對小於1公分的結節。總體來看,GPT-4在甲狀腺結節分類上有潛力,但仍需改進。 PubMed DOI

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現,使用了202張超音波影像。結果顯示,GPT-4在大多數類別中具高特異性但低敏感性,對低風險結節的敏感性僅25%,而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好,但在其他特徵上則不理想。整體來看,這些模型在臨床應用前仍需改進和驗證。 PubMed DOI