原始文章

這項研究評估大型語言模型(LLMs)在自動分配卵巢-附屬器報告和數據系統(O-RADS)分數的有效性。研究在四級癌症醫療中心進行,分析了2021年7月至2023年10月的MRI報告,並比較了兩種LLM策略:基於O-RADS規則的少量學習(GPT-4)和混合模型。結果顯示,混合模型的準確率達97%,高於僅用LLM的90%,且超過放射科醫師的88%。這表明混合LLM方法能有效提升臨床實踐中的準確性。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在冠狀動脈疾病(CAD)診斷中的表現,特別是根據CAD-RADS 2.0指引進行比較。結果顯示,ChatGPT 4o的準確率最高,達到100%,接著是ChatGPT 4和Claude 3 Opus,準確率為96.6%。其他模型的準確率也不錯,介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力,並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

這項研究旨在提升一個開源的大型語言模型(LLM),自動生成來自不同醫院的放射學報告印象,涵蓋CT、超音波和MRI等影像檢查。研究人員使用UCSF醫療中心和Zuckerberg舊金山總醫院的大數據集,透過ROUGE分數評估模型表現。結果顯示,該LLM與專科醫師撰寫的印象有顯著重疊,雖然外部驗證時表現稍降。針對CT胸部檢查的讀者研究顯示,模型生成的印象在臨床和語法準確性上表現良好,顯示其在輔助放射科醫師工作中的潛力。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),用於根據MRI報告自動分類肝臟觀察,依據LI-RADS v2018指導方針。研究分析了291個肝臟觀察,並將其分為訓練、驗證和測試集。結果顯示,模型在LI-RADS分類上有中等一致性(κ = 0.54),對於惡性腫瘤的識別也有不錯的表現。使用LLM後,放射科醫師的工作量減少了45%,顯示出該模型在臨床應用中的潛力,能有效提升數據整理效率。 PubMed DOI

這項研究比較了兩個大型語言模型(LLMs),GPT-4 和 Gemini,在分析放射學報告以識別腫瘤問題的表現。研究涵蓋205名患者,結果顯示GPT-4在準確率、精確度、召回率和F1分數上均優於Gemini,特別是在腫瘤狀態的判斷上也更準確。這顯示出大型語言模型,尤其是GPT-4,在腫瘤監測方面的潛力。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在使用日本FDG-PET報告中的Lugano分類來分類惡性淋巴瘤階段的效果。研究中,GPT-4o的準確率最高,達75%,顯示出顯著一致性。其他模型如Claude 3.5 Sonnet、Gemma 2 27B和Llama 3 70B的準確率分別為61.3%、58.8%和57.5%。整體來看,GPT-4o在解讀臨床文本方面表現最佳,顯示出LLMs在標準化放射學數據的潛力,雖然即時臨床應用仍有限。 PubMed DOI