原始文章

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI


站上相關主題文章列表

結構化報告可以增進放射學工作流程,並促進醫師間的溝通。人工智慧在醫學領域的應用越來越普遍,大型語言模型(LLMs)被用於放射學的結構化報告。四個LLM模型被比較其知識和模板提議能力。LLMs在放射學中生成結構化報告方面顯示出潛力,但需要進一步的正式驗證。 PubMed DOI

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

研究比較了GPT-4與傳統監督式模型在臨床註記中提取資訊的表現,結果顯示GPT-4在乳癌病理報告分類上表現優異,甚至超越其他LLMs和監督式模型。GPT-4的零-shot分類能力對標籤不平衡的任務特別有效。雖然LLMs減少了標註需求,但簡單模型配合大量標註資料也能達到相當效果。GPT-4有潛力加速臨床自然語言處理研究,減少標註需求,促進臨床研究中使用自然語言處理變數。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究旨在提升一個開源的大型語言模型(LLM),自動生成來自不同醫院的放射學報告印象,涵蓋CT、超音波和MRI等影像檢查。研究人員使用UCSF醫療中心和Zuckerberg舊金山總醫院的大數據集,透過ROUGE分數評估模型表現。結果顯示,該LLM與專科醫師撰寫的印象有顯著重疊,雖然外部驗證時表現稍降。針對CT胸部檢查的讀者研究顯示,模型生成的印象在臨床和語法準確性上表現良好,顯示其在輔助放射科醫師工作中的潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

深度學習在放射學的應用有助於改善診斷,但臨床接受度仍有挑戰。本研究開發了一個基於Llama 3-8B的語言模型,旨在自動生成MRI和CT報告的結論,以協助放射科醫生並提升效率。使用了15,000份來自克拉約瓦醫藥與藥學大學的報告數據進行訓練,並在NVIDIA RTX 3090 GPU上進行微調。結果顯示,模型在生成結論的準確性上表現良好,並獲得放射科醫生的正面評價。未來需解決數據偏見及臨床整合等問題。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究探討了OpenAI的GPT-4進階數據分析(ADA)在分析重症監護病房病人胸部X光片的有效性。研究使用了43,788份病人報告,要求GPT-4進行多種分析,包括繪圖和預測模型。三位具機器學習經驗的科學家評估了GPT-4的輸出,結果顯示其視覺化和統計分析大多準確,但也有錯誤。GPT-4的機器學習模型AUC為0.75,與人類模型相近(0.80),準確率也相似。研究建議大型語言模型可增強放射學數據分析,但仍需注意準確性限制。 PubMed DOI

這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。 PubMed DOI