Uncertainty estimation in diagnosis generation from large language models: next-word probability is not pre-test probability.
大型語言模型在診斷生成中的不確定性估計：下一詞概率並非前測概率。 JAMIA Open 2025-01-13

這項研究評估了兩個大型語言模型（LLMs），Mistral-7B-Instruct 和 Llama3-70B-chat-hf，使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示，傳統的極端梯度提升（XGB）分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB，但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理，以提升診斷準確性，並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Using Large Language Models to Retrieve Critical Data from Clinical Processes and Business Rules.
使用大型語言模型從臨床流程和商業規則中檢索關鍵數據。 Bioengineering (Basel) 2025-01-24

這項研究探討大型語言模型（LLM）LLaMA 2 在臨床護理的應用，特別是解釋複雜的護理路徑模型。傳統的診斷系統繁瑣且需頻繁更新。研究人員訓練 LLaMA 2，並測試其根據假設病人案例提供臨床建議的能力。結果顯示，LLaMA 2 在檢索診斷和建議管理步驟方面準確率高，平均節點準確率為 0.91，邊緣準確率為 0.92，顯示其在醫療資訊檢索上的潛力。未來研究應著重於提升 LLM 的可解釋性及與臨床流程的整合。 PubMed DOI

Leveraging Large Language Models to Generate Clinical Histories for Oncologic Imaging Requisitions.
利用大型語言模型生成腫瘤影像檢查申請的臨床歷史。 Radiology 2025-02-04

這項研究探討大型語言模型（LLMs）在自動生成腫瘤影像檢查申請的臨床歷史的應用，資料來自207名接受CT掃描的癌症患者。研究顯示，GPT-4在提取關鍵腫瘤學參數方面表現優異，F1分數達0.983。LLM生成的歷史中，主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史，且差異具統計意義。放射科醫生更偏好LLM生成的歷史，認為其提供更完整的解讀，降低傷害風險。總之，LLM能準確創建全面的腫瘤影像臨床歷史，受到醫生青睞。 PubMed DOI

Efficacy of Fine-Tuned Large Language Model in CT Protocol Assignment as Clinical Decision-Supporting System.
微調大型語言模型在 CT 協議分配中的效能作為臨床決策支持系統。 J Imaging Inform Med 2025-02-05

這項研究探討經過微調的大型語言模型（LLM）在放射科CT檢查協議分配中的應用。研究分析了4,268例對比增強的胸部和腹部CT，並根據臨床指徵等訓練LLM。經過15個時期的微調後，模型準確率達到0.923和0.963，靈敏度為0.907。評估結果顯示，LLM提升了住院醫師和放射科醫生的準確性，住院醫師的準確率從0.913提升至0.936，且閱讀時間分別縮短14%和12%。總體而言，LLM能有效提升CT協議的效率與診斷準確性。 PubMed DOI

Multiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms.
多個大型語言模型與經驗豐富的醫生在診斷具有挑戰性的腸胃症狀病例中的比較。 NPJ Digit Med 2025-02-05

這項研究比較了大型語言模型（LLMs）與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例，發現LLM Claude 3.5 Sonnet的準確率達76.1%，明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具，提供高效且具成本效益的診斷支持。 PubMed DOI

Human-AI collaboration in large language model-assisted brain MRI differential diagnosis: a usability study.
大型語言模型輔助腦部 MRI 鑑別診斷中的人類與 AI 協作：一項可用性研究。 Eur Radiol 2025-03-07

這項研究探討人類與大型語言模型（LLMs）合作對腦部MRI掃描診斷準確性和效率的影響。研究中，六名放射科住院醫師評估40個挑戰性MRI案例，分別使用傳統網路搜尋和LLM輔助搜尋。結果顯示，LLM輔助的診斷準確率為61.4%，高於傳統的46.5%，且差異具統計意義。不過，解讀時間和信心水平未見變化。研究指出的挑戰包括案例描述不準確、LLM的幻覺現象及上下文不足。雖然LLM能提升診斷準確性，但仍需進一步研究以優化人類與LLM的合作。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

Diagnostic Performance of a Large Language Model for Determining the Cause of Death: A Comparative Analysis of Clinical History, Postmortem Computed Tomography Findings, and Their Integration.
大型語言模型於判斷死因之診斷效能：臨床病史、死後電腦斷層掃描結果及其整合的比較分析 Cureus 2025-06-09

這項研究發現，Claude 3.5 Sonnet大型語言模型在判斷死亡原因時，若同時結合臨床病史和死後CT報告，準確率最高（可達78%），比只用單一資訊還要好。不同疾病類型的準確率會有差異，血液腫瘤的提升最明顯。整體來說，整合多種資訊能有效提升AI判斷死亡原因的表現。 PubMed DOI

原始文章

站上相關主題文章列表