原始文章

這項研究評估了大型語言模型(LLMs)在根據低劑量電腦斷層掃描(LDCT)報告分配Lung-RADS分數的表現。分析了242份報告,測試了四個模型:ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示,ChatGPT-4o準確率最高,達83.6%,而ChatGPT-3.5為70.1%。反應時間方面,ChatGPT-3.5最快,約4秒。雖然ChatGPT-4o表現優於其他模型,但仍未達到人類放射科醫生的準確性,未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI


站上相關主題文章列表

這項研究探討了大型語言模型(LLM)ChatGPT 在根據肝臟影像報告分類肝臟病變的能力,使用 MRI 報告進行比較。研究涵蓋 150 名患者的 205 份 MRI,重點在特定病變的大小、位置及動脈期對比增強標準。結果顯示,ChatGPT 在非結構化報告中的準確率(53%)高於結構化報告(44%),且在非結構化報告的協議程度(k = 0.51)也較佳。這顯示 LLM 在處理自由文本數據方面有潛力,但仍需優化以適應結構化數據。 PubMed DOI

這項研究比較了ChatGPT大型語言模型(LLMs)與不同經驗的人類讀者在肺癌分期的表現。研究納入700名非小細胞肺癌患者,使用胸部CT和FDG PET/CT報告進行分析。結果顯示,GPT-4o的準確率為74.1%,優於其他模型和一位住院醫師,但仍低於專科訓練的放射科醫生。這表明,雖然LLMs在某些方面表現不錯,但在癌症分期等複雜任務中,專業醫療人員的角色仍然不可或缺。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了兩個AI語言模型,ChatGPT 4.0和Google Gemini,在回答79個兒科放射學問題上的表現。結果顯示,ChatGPT 4.0的準確率為83.5%,而Google Gemini則為68.4%,差異顯著(p=0.0255,RR=1.221)。雖然ChatGPT 4.0整體上表現較佳,但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入,以更全面評估AI模型在放射學的有效性。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示,ChatGPT-4o的準確性最高,達87%,而ChatGPT-3.5雖然速度最快,但準確性最低,僅50.5%。Google Gemini Advanced的準確性為82.6%,而Google Gemini的失敗率較高,達12%。總體來看,雖然這些模型展現潛力,但在臨床應用前仍需改進。 PubMed DOI

這項研究評估大型語言模型(LLMs)在前列腺MRI報告中分配PI-RADS類別的效果。研究對象為100名未接受活檢的患者,MRI報告由兩位泌尿放射科醫師分類,並與GPT-3.5、GPT-4、Bard和Gemini的結果進行比較。結果顯示,放射科醫師的準確率高達95%和90%,而GPT-3.5和Bard僅67%。更新的GPT-4和Gemini分別提高至83%和79%。整體而言,LLMs在準確性上仍不及人類醫師,臨床應用需謹慎考量。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI

這項研究比較了兩個大型語言模型(LLMs),GPT-4 和 Gemini,在分析放射學報告以識別腫瘤問題的表現。研究涵蓋205名患者,結果顯示GPT-4在準確率、精確度、召回率和F1分數上均優於Gemini,特別是在腫瘤狀態的判斷上也更準確。這顯示出大型語言模型,尤其是GPT-4,在腫瘤監測方面的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

本研究探討大型語言模型(LLMs)在放射學職場管理的有效性,評估了ChatGPT-3.5、ChatGPT-4.0、Gemini及Gemini Advanced的表現。透過31個問題的回應,評估者使用4分制指標進行評分。結果顯示,ChatGPT-4.0在所有類別中表現最佳,且有顯著差異。Gemini Advanced也優於Gemini,顯示出對ChatGPT-3.5的趨勢。所有回應均未被評為「不足」,顯示LLMs能有效提升放射學職場管理效率。 PubMed DOI