Quantitative Evaluation of Large Language Models to Streamline Radiology Report Impressions: A Multimodal Retrospective Analysis.
量化評估大型語言模型以簡化放射學報告印象：多模式回顧性分析。 Radiology 2024-03-27

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示，所有模型都成功簡化報告，但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

Radiological Differential Diagnoses Based on Cardiovascular and Thoracic Imaging Patterns: Perspectives of Four Large Language Models.
基於心血管和胸部影像模式的放射學鑑別診斷：四個大型語言模型的觀點。 Indian J Radiol Imaging 2024-03-30

研究比較了四個大型語言模型在心血管和胸部影像診斷上的效果，包括ChatGPT3.5、Google Bard、Microsoft Bing和Perplexity。結果顯示Perplexity在診斷準確度和一致性上表現最佳。在選擇臨床或教育用模型時，需考慮這些差異。 PubMed DOI

Performance of an Open-Source Large Language Model in Extracting Information from Free-Text Radiology Reports.
開源大型語言模型在從自由文本放射學報告中提取信息的表現。 Radiol Artif Intell 2024-05-08

這項研究評估了一個開源的大型語言模型（LLM）在從急診腦部MRI報告中提取信息的表現。對比了放射科醫師和LLM在識別頭痛、異常發現以及MRI結果與頭痛之間因果關係方面的能力。LLM在這些任務中表現出高靈敏度和特異度，顯示其具有潛力在不需額外訓練的情況下從放射學報告中準確提取信息。 PubMed DOI

Performance of Large Language Models on Medical Oncology Examination Questions.
大型語言模型在醫學腫瘤學考試問題上的表現。 JAMA Netw Open 2024-06-18

一項研究評估了大型語言模型（LLMs）在回答醫學腫瘤學考試問題時的準確性和安全性。最佳的LLM以高準確度回答問題，但錯誤引起了安全疑慮，這表明有必要開發和評估LLMs，以改善臨床醫學腫瘤學等高風險臨床環境中醫護人員的經驗和病人護理。 PubMed DOI

Fine-Tuned Large Language Model for Extracting Patients on Pretreatment for Lung Cancer from a Picture Archiving and Communication System Based on Radiological Reports.
基於放射學報告的圖像存檔和通訊系統，用於提取肺癌預處理患者的精細調校大型語言模型。 J Imaging Inform Med 2024-07-02

這項研究比較了一個經過微調的大型語言模型（LLM）與放射科醫師在從放射學報告中識別肺癌預防治療患者方面的表現。LLM在分類患者方面表現出高準確度和敏感度，與放射科醫師相似，但處理時間更快。研究結果表明，LLM能夠有效地及時從醫療記錄中提取相關信息。 PubMed DOI

Evaluating Large Language Models for Automated Reporting and Data Systems Categorization: Cross-Sectional Study.
評估大型語言模型用於自動報告和數據系統分類：橫斷面研究。 JMIR Med Inform 2024-07-17

研究比較三個大型語言模型聊天機器人在幫忙歸類放射學報告時的表現。結果顯示，Claude-2在使用結構化提示和指南PDF時最準確，特別是對於LI-RADS 2018版本。但沒有提示時，所有機器人表現不佳，且在RADS標準上有差異。Claude-2展現了根據標準歸類RADS類別的潛力，但應用較新標準時遇到困難。 PubMed DOI

Comparative Evaluation of LLMs in Clinical Oncology.
臨床腫瘤學中大型語言模型的比較評估。 NEJM AI 2024-08-12

隨著人工智慧工具的普及，患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型（LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4）在2044個腫瘤學相關問題上的表現。結果顯示，GPT-4在與人類基準比較中表現最佳，達到第50百分位以上。雖然GPT-4的準確率高達81.1%，但所有模型仍存在顯著錯誤率，顯示出持續評估這些AI工具的重要性，以確保其安全應用於臨床實踐。 PubMed DOI

Can large language models be new supportive tools in coronary computed tomography angiography reporting?
大型語言模型能否成為冠狀動脈電腦斷層血管造影報告的新支援工具？ Clin Imaging 2024-09-05

這項研究評估了多種大型語言模型（LLMs）在冠狀動脈疾病（CAD）診斷中的表現，特別是根據CAD-RADS 2.0指引進行比較。結果顯示，ChatGPT 4o的準確率最高，達到100%，接著是ChatGPT 4和Claude 3 Opus，準確率為96.6%。其他模型的準確率也不錯，介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力，並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

Evaluating text and visual diagnostic capabilities of large language models on questions related to the Breast Imaging Reporting and Data System Atlas 5<sup>th</sup> edition.
評估大型語言模型在與乳腺影像報告與數據系統 Atlas 第五版相關問題的文本和視覺診斷能力。 Diagn Interv Radiol 2024-09-09

這項研究評估大型語言模型（LLMs）在解釋乳腺影像報告及提供臨床建議的表現，分為兩個步驟： 1. **文本評估**：比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳（90%），超過一般放射科醫師（78%）和乳腺放射科醫師（82%）。 2. **視覺評估**：測試五個多模態LLMs在100張乳腺超音波影像上的表現，Claude 3.5 Sonnet以59%準確率領先。研究顯示，雖然LLMs在文本評估中表現良好，但視覺診斷能力有限，需在放射科醫師監督下使用，以避免誤診。 PubMed DOI

The Diagnostic Performance of Large Language Models and General Radiologists in Thoracic Radiology Cases: A Comparative Study.
大型語言模型與一般放射科醫生在胸部放射學案例中的診斷表現：一項比較研究。 J Thorac Imaging 2024-09-13

這項研究評估了10個大型語言模型（LLMs）與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例，結果顯示Claude 3 Opus的診斷準確率最高，達70.29%，而放射科醫生的準確率則較低，分別為52.4%和41.1%。LLMs在特定案例中的表現較佳，顯示在適當醫療監督下，LLMs可能成為臨床決策的重要工具。 PubMed DOI

原始文章

站上相關主題文章列表