Automated classification of brain MRI reports using fine-tuned large language models.
使用微調的大型語言模型自動分類腦部 MRI 報告。 Neuroradiology 2024-07-12

研究測試了精細調校的大型語言模型（LLM）在分類腦部磁振造影報告的效能。LLM表現高準確、敏感，且處理速度快，比人類放射科醫師更有效。結果顯示LLM在醫學影像分析上有潛力，與專業醫師相當。 PubMed DOI

Use of ChatGPT Large Language Models to Extract Details of Recommendations for Additional Imaging From Free-Text Impressions of Radiology Reports.
使用 ChatGPT 大型語言模型從放射科報告的自由文本印象中提取額外影像建議的細節。 AJR Am J Roentgenol 2025-01-29

本研究探討大型語言模型（LLMs）在從放射科報告中提取額外影像檢查建議（RAIs）的有效性。研究回顧了250份報告，確認231份包含RAIs，並使用自然語言處理算法進行分析。結果顯示，GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5，顯示出LLMs在確保影像檢查建議及時完成的潛力，可能有助於減少診斷延遲。 PubMed DOI

Large Language Models-Supported Thrombectomy Decision-Making in Acute Ischemic Stroke Based on Radiology Reports: Feasibility Qualitative Study.
基於放射學報告的大型語言模型支持急性缺血性中風血栓切除決策：可行性質性研究。 J Med Internet Res 2025-02-13

這項研究探討了大型語言模型（LLMs）在急性缺血性中風（AIS）病例中的應用，特別是機械性血栓切除術（MT）的適應性。研究分析了100名AIS患者的數據，LLM根據放射學報告、神經症狀、發病資訊和患者年齡進行判斷。結果顯示，該AI模型的整體準確率達88%，特異性96%，敏感性80%，曲線下面積為0.92，顯示出LLMs在整合醫療數據方面的潛力，並鼓勵進一步探索其在臨床的應用。 PubMed DOI

Detecting New Lesions Using a Large Language Model: Applications in Real-World Multiple Sclerosis Datasets.
使用大型語言模型偵測新病灶：於真實世界多發性硬化症資料集的應用 Ann Neurol 2025-04-25

研究團隊開發了 msLesionprompt，利用 ChatGPT-4 自動從多發性硬化症患者的 MRI 報告中，快速抓取新發炎性病灶的重點資訊。這工具能準確辨識新 T2 病灶和增強病灶，處理近 1.5 萬份報告又省時省錢，讓大規模分析治療效果和健康因素變得更容易，對 MS 研究很有幫助。 PubMed DOI

Use of Open-Source Large Language Models for Automatic Synthesis of the Entire Imaging Medical Records of Patients: A Feasibility Study.
開源大型語言模型於自動整合病患完整影像醫療紀錄之應用：可行性研究 Tomography 2025-04-25

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄，經專業醫師評估，發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點，省下查閱時間，資訊品質也沒打折，對放射科工作流程很有幫助。 PubMed DOI

Weakly supervised language models for automated extraction of critical findings from radiology reports.
用於自動擷取放射科報告關鍵發現的弱監督式語言模型 NPJ Digit Med 2025-05-09

這項研究用大型語言模型，解決放射科報告標註資料不足的問題，能自動抓出危及生命的異常發現。模型在1.5萬份未標註報告訓練，經專家和AI評分驗證，準確度高，內外部資料都適用。這方法提升危急異常偵測力，已開放給研究和臨床使用。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Comparative performance of large language models in structuring head CT radiology reports: multi-institutional validation study in Japan.
大型語言模型在結構化頭部電腦斷層放射報告的表現比較：日本多機構驗證研究 Jpn J Radiol 2025-05-14

這項研究比較了Claude、GPT和Gemini三種大型語言模型，從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯，其中以Claude最準確。提示設計會影響模型表現，尤其是Gemini。常見錯誤多因報告內容模糊。整體來說，大型語言模型能有效結構化放射報告，但提示設計還需優化，也要在不同語言和實際情境下再測試。 PubMed DOI

High-Throughput Phenotyping of the Symptoms of Alzheimer Disease and Related Dementias Using Large Language Models: Cross-Sectional Study.
使用大型語言模型進行阿茲海默症及相關失智症症狀的高通量表現型分析：橫斷面研究 JMIR AI 2025-06-03

研究團隊開發了一套經微調的大型語言模型，能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀，準確度（AUROC）高達0.97-0.99，優於傳統方法。這些症狀不僅能預測失智症診斷，還和腦部MRI結果有關，有助提升診斷準確率並推動相關研究。 PubMed DOI

Leveraging large language models for accurate classification of liver lesions from MRI reports.
運用大型語言模型精確分類MRI報告中的肝臟病灶 Comput Struct Biotechnol J 2025-06-12

這項研究用88份真實MRI肝臟病灶報告，測試多款大型語言模型的分類能力。結果發現，Claude 3.5 Sonnet準確率最高，勝過GPT-4o等其他模型。雖然LLM有潛力協助醫療診斷，但臨床應用前還需更多驗證，嚴謹測試也很重要。 PubMed DOI

原始文章

站上相關主題文章列表