原始文章

大型基礎模型在生物醫學領域有潛力,但在臨床應用上面臨挑戰,如性能差距和高成本。本研究展示了一個開源的小型多模態模型,透過胸部X光影像生成診斷結果,解決放射學的問題。研究團隊訓練了697,000對影像-文本對,開發了專門的胸部X光編碼器,並與預訓練的語言模型整合。為了評估模型的準確性,團隊創建了CheXprompt,並用於基準測試,LLaVA-Rad模型表現優於一些大型模型。雖然尚未適合實時臨床使用,但這代表了在放射學中可臨床應用的進展。 PubMed DOI


站上相關主題文章列表

研究比較了KARA-CXR和ChatGPT兩種人工智慧技術在閱讀胸部X光片時的表現,結果顯示KARA-CXR準確性較高,且在虛假發現、位置不準確和幻覺方面表現也更好。這研究強調了人工智慧和語言模型在醫學影像領域的潛力,KARA-CXR在胸部X光片診斷上有很大的發展空間。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在冠狀動脈疾病(CAD)診斷中的表現,特別是根據CAD-RADS 2.0指引進行比較。結果顯示,ChatGPT 4o的準確率最高,達到100%,接著是ChatGPT 4和Claude 3 Opus,準確率為96.6%。其他模型的準確率也不錯,介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力,並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究旨在提升一個開源的大型語言模型(LLM),自動生成來自不同醫院的放射學報告印象,涵蓋CT、超音波和MRI等影像檢查。研究人員使用UCSF醫療中心和Zuckerberg舊金山總醫院的大數據集,透過ROUGE分數評估模型表現。結果顯示,該LLM與專科醫師撰寫的印象有顯著重疊,雖然外部驗證時表現稍降。針對CT胸部檢查的讀者研究顯示,模型生成的印象在臨床和語法準確性上表現良好,顯示其在輔助放射科醫師工作中的潛力。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

這項研究探討了OpenAI的GPT-4進階數據分析(ADA)在分析重症監護病房病人胸部X光片的有效性。研究使用了43,788份病人報告,要求GPT-4進行多種分析,包括繪圖和預測模型。三位具機器學習經驗的科學家評估了GPT-4的輸出,結果顯示其視覺化和統計分析大多準確,但也有錯誤。GPT-4的機器學習模型AUC為0.75,與人類模型相近(0.80),準確率也相似。研究建議大型語言模型可增強放射學數據分析,但仍需注意準確性限制。 PubMed DOI

本研究評估了兩種人工智慧工具,M4CXR 和 ChatGPT-4o,在解讀胸部 X 光片的診斷能力。研究分析了826張影像,結果顯示M4CXR在準確性和一致性上均優於ChatGPT,診斷準確性分別為60-62%和42-45%。M4CXR在解剖定位的準確性達76-77.5%,而ChatGPT僅36-36.5%。研究強調這些技術的互補潛力,建議結合人工智慧與臨床判斷,以提升病患護理結果。 PubMed DOI

這項研究開發了一個名為CXR-LLaVA的開源多模態大型語言模型,專門用來解讀胸部X光影像並生成放射科報告。研究人員在包含374,881張標記影像的數據集上預訓練視覺變壓器,並結合大型語言模型進行微調,使用217,699份報告來提升生成準確性。CXR-LLaVA在內部測試中達到平均F1分數0.81,並在外部測試中為0.56,顯示出超越其他先進模型的潛力。該模型的報告準確率為72.7%,顯示出自動報告的可行性,並強調開源對進一步研究的重要性。 PubMed DOI

這項研究探討了一個專門的多模態生成式人工智慧模型在胸部X光片解讀上的影響,評估其診斷準確性和臨床價值。該模型基於42家醫院18年的X光片報告數據訓練,並在多個公共數據集上測試。 主要發現包括: - 模型對氣胸和皮下氣腫的檢測敏感度分別為95.3%和92.6%。 - 報告接受率:人工智慧模型70.5%、放射科醫師73.3%、GPT-4Vision僅29.6%。 - 人工智慧模型的報告獲得最高一致性和質量評分,顯示其可靠性優於GPT-4Vision。 總結來說,這項研究顯示專門的人工智慧模型在放射學診斷中具備顯著潛力。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI