Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析:比較性研究
Int J Surg 2025-06-11
Can large language models be new supportive tools in coronary computed tomography angiography reporting?
大型語言模型能否成為冠狀動脈電腦斷層血管造影報告的新支援工具?
Clin Imaging 2024-09-05
Extraction of clinical data on major pulmonary diseases from unstructured radiologic reports using a large language model.
使用大型語言模型從非結構化放射學報告中提取主要肺部疾病的臨床數據。
PLoS One 2024-11-25
這項研究探討大型語言模型(LLMs)在從非結構化放射報告中提取臨床數據的效果,專注於七種肺部疾病。研究分析了1,800份報告,並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示,所有模型的準確率都很高,特別是GPT-4的表現最佳,敏感性和特異性均達到優秀水準。這些結果顯示,LLMs,尤其是GPT-4,可能成為醫生進行病歷審查的有效替代方案,提升非結構化放射數據的提取能力。
PubMedDOI
Assessing Large Language Models for Oncology Data Inference From Radiology Reports.
評估大型語言模型在放射學報告中對腫瘤學數據推斷的能力。
JCO Clin Cancer Inform 2024-12-11
Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響:前瞻性比較分析。
JMIR Med Educ 2025-01-17
Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現:基準研究。
Crit Care 2025-02-10
這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。
PubMedDOI
Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。
J Cardiovasc Comput Tomogr 2025-04-10
Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估:與人類表現的比較研究
Acad Radiol 2025-05-28