原始文章

深度學習在放射學的應用有助於改善診斷,但臨床接受度仍有挑戰。本研究開發了一個基於Llama 3-8B的語言模型,旨在自動生成MRI和CT報告的結論,以協助放射科醫生並提升效率。使用了15,000份來自克拉約瓦醫藥與藥學大學的報告數據進行訓練,並在NVIDIA RTX 3090 GPU上進行微調。結果顯示,模型在生成結論的準確性上表現良好,並獲得放射科醫生的正面評價。未來需解決數據偏見及臨床整合等問題。 PubMed DOI


站上相關主題文章列表

研究比較了GPT模型和放射科醫師生成放射學報告的表現,結果顯示GPT-4在準確性上優於GPT-2和GPT-3.5,但仍不及醫師。醫師在印象和鑑別診斷方面表現較佳。GPT-3.5和GPT-4生成的報告可讀性高,但準確性仍需醫師驗證。 PubMed DOI

研究比較了不同大型語言模型在放射學自動摘要生成的效果,重點在於準確的摘要對準確傳達放射學發現至關重要。研究使用T5和BART模型進行微調和零-shot學習,並與RNN進行比較。結果顯示,T5模型在Rouge-L分數達到0.638,且人類評判顯示T5生成的摘要與專業放射科醫師相似度高達70%。研究指出,自然語言處理和語言模型技術的進步有助於提升放射學摘要生成工具,對放射科醫師的工作有所助益。 PubMed DOI

人工智慧在放射學報告生成方面有進步,但評估AI報告仍有挑戰。結合放射科醫師專業知識與GPT-3.5、GPT-4等大型語言模型,使用ICIL和CoT推理對齊評估標準。透過回歸模型聚合分數進行比較,實驗結果顯示此方法優於現有指標。穩健性已驗證,將釋出專家註釋以增進AI醫學報告評估品質。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

人工智慧(AI)在醫療,特別是放射學的發展,正帶來重大變革,提升診斷準確性和病人參與度。大型語言模型(LLMs),如GPT-4,能協助撰寫和總結放射報告,支持鑑別診斷,並建議基於證據的治療方案。本文探討了GPT-4在提升診斷精確度和報告效率的應用,同時也提到實施AI技術所面臨的倫理和隱私挑戰,強調需謹慎監督和遵循法規。最終,這些技術有望改善病人照護和臨床研究。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),能根據影像生成放射學印象,並評估其專業及語言表現。研究在上海總醫院進行,六位放射科醫生使用該模型並進行修正。LLM在20 GB醫學及一般文本數據上預訓練,並用1.5 GB數據微調,包含800份放射學報告。結果顯示,LLM的中位召回率為0.775,精確度0.84,F1分數0.772,表現良好。專家對其印象評價高,顯示其在放射學檢查中具專業性。 PubMed DOI

這項研究旨在提升一個開源的大型語言模型(LLM),自動生成來自不同醫院的放射學報告印象,涵蓋CT、超音波和MRI等影像檢查。研究人員使用UCSF醫療中心和Zuckerberg舊金山總醫院的大數據集,透過ROUGE分數評估模型表現。結果顯示,該LLM與專科醫師撰寫的印象有顯著重疊,雖然外部驗證時表現稍降。針對CT胸部檢查的讀者研究顯示,模型生成的印象在臨床和語法準確性上表現良好,顯示其在輔助放射科醫師工作中的潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI