原始文章

這項研究針對缺乏公開數據集的問題,探討如何根據乳腺影像報告及BI-RADS類別進行分類。研究團隊建立了一個包含5046份西班牙語放射學報告的數據集,經過認證的放射科醫生標註後翻譯成英文。經過預處理後,使用多種機器學習和深度學習分類器進行分析。結果顯示,BioGPT分類器的表現最佳,平均靈敏度達0.60,優於BERT的0.54。這項研究為未來BI-RADS分類的研究提供了基準數據集和基線結果,促進該領域的發展。 PubMed DOI


站上相關主題文章列表

這項研究評估了人類閱讀者與大型語言模型(LLMs)在三種語言的乳房影像報告中分配乳房影像報告和數據系統(BI-RADS)分類方面的一致性。LLMs與人類閱讀者顯示出中等程度的一致性,但存在高比例的不一致BI-RADS分類,可能對臨床管理產生負面影響。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

放射學中的結構化報告在可比性、可讀性和細節上有明顯優勢,但其採用仍然有限。本研究探討了一種本地托管的語言模型,能將自由文本的放射報告轉換為結構化數據,且不影響放射科醫師的工作流程。研究結果顯示,該模型生成的結構化報告在英語和德語的準確性接近人類讀者,顯示出良好的性能。結論指出,為了提高結構化報告的採用,需加強自動化系統與臨床流程的整合,讓醫師能在報告過程中受益於結構化數據。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),用於根據MRI報告自動分類肝臟觀察,依據LI-RADS v2018指導方針。研究分析了291個肝臟觀察,並將其分為訓練、驗證和測試集。結果顯示,模型在LI-RADS分類上有中等一致性(κ = 0.54),對於惡性腫瘤的識別也有不錯的表現。使用LLM後,放射科醫師的工作量減少了45%,顯示出該模型在臨床應用中的潛力,能有效提升數據整理效率。 PubMed DOI

這項研究探討如何利用自然語言處理(NLP)和變壓器模型,從甲狀腺結節的超音波報告中分類 ACR TI-RADS 類別。研究分析了16,847份報告,並開發自動化系統來分配 TI-RADS 類別,隨後由放射科醫師進行審查。結果顯示,納入特定結節特徵的模型表現更佳,BERTIN 模型達到最高準確率0.8426。此外,某些特徵如點狀回聲焦點,與較高的 TI-RADS 分數有關,顯示詳細描述對預測惡性風險的重要性。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

最近大型語言模型(LLMs)在放射診斷方面的進展顯著,無論是開源還是專有模型,都能透過本地或雲端部署來解決隱私問題。研究評估了十五個開源LLMs和一個封閉源LLM(GPT-4o)的診斷表現,使用了1,933個來自Eurorad的案例。結果顯示,GPT-4o的表現最佳,其次是Llama-3-70B,顯示開源模型的表現逐漸接近專有模型,顯示其在放射鑑別診斷中的潛力。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI