原始文章

這項研究探討了先驗機率對大型語言模型(LLM)在放射學診斷中的影響。研究分析了322個放射學案例,並在三種情境下測試LLM:無上下文、帶測驗上下文及初級護理上下文。結果顯示,提供測驗上下文時,LLM的診斷準確率顯著提升至70.2%,而無上下文時為64.9%。但在初級護理情境下,準確率降至59.9%。這顯示LLM可能根據先前信息調整診斷,強調在臨床中提供相關上下文的重要性。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個大型語言模型(LLMs),Mistral-7B-Instruct 和 Llama3-70B-chat-hf,使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示,傳統的極端梯度提升(XGB)分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB,但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理,以提升診斷準確性,並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

這項研究探討大型語言模型(LLM)LLaMA 2 在臨床護理的應用,特別是解釋複雜的護理路徑模型。傳統的診斷系統繁瑣且需頻繁更新。研究人員訓練 LLaMA 2,並測試其根據假設病人案例提供臨床建議的能力。結果顯示,LLaMA 2 在檢索診斷和建議管理步驟方面準確率高,平均節點準確率為 0.91,邊緣準確率為 0.92,顯示其在醫療資訊檢索上的潛力。未來研究應著重於提升 LLM 的可解釋性及與臨床流程的整合。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

這項研究探討經過微調的大型語言模型(LLM)在放射科CT檢查協議分配中的應用。研究分析了4,268例對比增強的胸部和腹部CT,並根據臨床指徵等訓練LLM。經過15個時期的微調後,模型準確率達到0.923和0.963,靈敏度為0.907。 評估結果顯示,LLM提升了住院醫師和放射科醫生的準確性,住院醫師的準確率從0.913提升至0.936,且閱讀時間分別縮短14%和12%。總體而言,LLM能有效提升CT協議的效率與診斷準確性。 PubMed DOI

這項研究比較了大型語言模型(LLMs)與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例,發現LLM Claude 3.5 Sonnet的準確率達76.1%,明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具,提供高效且具成本效益的診斷支持。 PubMed DOI

這項研究探討人類與大型語言模型(LLMs)合作對腦部MRI掃描診斷準確性和效率的影響。研究中,六名放射科住院醫師評估40個挑戰性MRI案例,分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示,LLM輔助的診斷準確率為61.4%,高於傳統的46.5%,且差異具統計意義。不過,解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性,但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,Claude 3.5 Sonnet大型語言模型在判斷死亡原因時,若同時結合臨床病史和死後CT報告,準確率最高(可達78%),比只用單一資訊還要好。不同疾病類型的準確率會有差異,血液腫瘤的提升最明顯。整體來說,整合多種資訊能有效提升AI判斷死亡原因的表現。 PubMed DOI