原始文章

這項研究評估了九個大型語言模型(LLMs)在總結中國放射科報告中對肺癌的印象表現。研究發現,ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確,但在簡潔性和真實性上仍有不足,且與放射科醫生撰寫的印象相比,仍存在顯著差距。整體來看,現有的 LLMs 雖能生成高完整性和正確性的報告,但尚無法完全取代放射科醫生。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

研究比較了不同大型語言模型在放射學自動摘要生成的效果,重點在於準確的摘要對準確傳達放射學發現至關重要。研究使用T5和BART模型進行微調和零-shot學習,並與RNN進行比較。結果顯示,T5模型在Rouge-L分數達到0.638,且人類評判顯示T5生成的摘要與專業放射科醫師相似度高達70%。研究指出,自然語言處理和語言模型技術的進步有助於提升放射學摘要生成工具,對放射科醫師的工作有所助益。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),能根據影像生成放射學印象,並評估其專業及語言表現。研究在上海總醫院進行,六位放射科醫生使用該模型並進行修正。LLM在20 GB醫學及一般文本數據上預訓練,並用1.5 GB數據微調,包含800份放射學報告。結果顯示,LLM的中位召回率為0.775,精確度0.84,F1分數0.772,表現良好。專家對其印象評價高,顯示其在放射學檢查中具專業性。 PubMed DOI

這項研究旨在提升一個開源的大型語言模型(LLM),自動生成來自不同醫院的放射學報告印象,涵蓋CT、超音波和MRI等影像檢查。研究人員使用UCSF醫療中心和Zuckerberg舊金山總醫院的大數據集,透過ROUGE分數評估模型表現。結果顯示,該LLM與專科醫師撰寫的印象有顯著重疊,雖然外部驗證時表現稍降。針對CT胸部檢查的讀者研究顯示,模型生成的印象在臨床和語法準確性上表現良好,顯示其在輔助放射科醫師工作中的潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究評估大型語言模型(LLMs)在翻譯放射科報告的效果。由於合格翻譯者不足,這對病人護理造成挑戰。研究團隊將100份合成報告翻譯成九種語言,並使用十個LLM進行自動翻譯,結果由18位放射科醫生評估。發現GPT-4的翻譯品質最佳,特別是在英德、英希、英泰和英土語言對上表現突出。雖然LLMs在清晰度和一致性上表現良好,但醫學術語的準確性仍需改進。總體來說,LLMs能有效翻譯放射科報告,但不同模型和語言的表現有所差異。 PubMed DOI

這項回顧性研究探討大型語言模型(LLMs)在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告,發現243個錯誤,並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示,Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高,達52.3%。此外,LLMs處理報告的速度也明顯快於放射科醫生,顯示其在提升報告準確性方面的潛力。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI