Extraction of clinical data on major pulmonary diseases from unstructured radiologic reports using a large language model.
使用大型語言模型從非結構化放射學報告中提取主要肺部疾病的臨床數據。 PLoS One 2024-11-25

這項研究探討大型語言模型（LLMs）在從非結構化放射報告中提取臨床數據的效果，專注於七種肺部疾病。研究分析了1,800份報告，並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示，所有模型的準確率都很高，特別是GPT-4的表現最佳，敏感性和特異性均達到優秀水準。這些結果顯示，LLMs，尤其是GPT-4，可能成為醫生進行病歷審查的有效替代方案，提升非結構化放射數據的提取能力。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Large Language Models for Pediatric Differential Diagnoses in Rural Health Care: Multicenter Retrospective Cohort Study Comparing GPT-3 With Pediatrician Performance.
大型語言模型在鄉村醫療中對兒科鑑別診斷的應用：多中心回顧性隊列研究比較 GPT-3 與兒科醫生的表現。 JMIRx Med 2025-03-19

這項研究探討了一個微調過的GPT-3模型在農村醫療環境中對兒科病例診斷的有效性，因為這些地區專家資源有限。研究分析了路易斯安那州中部的500個兒科就診案例，發現模型準確率達87.3%，敏感度和特異度分別為85%和90%，與兒科醫生的91.3%相當。模型在不同年齡組和常見病症中表現穩定，但對罕見診斷的準確率稍低。總體來說，這個微調的GPT-3模型可作為農村兒科護理的可靠診斷工具，但仍需在不同人群中進一步驗證。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Use of an Untrained Large Language Model for Antibiotic Prescription in Pediatric Infectious Diseases at Primary Care Settings: A Study From the Italian Society for Pediatric Infectious Diseases.
未經訓練的大型語言模型於基層醫療環境中兒科感染症抗生素處方之應用：義大利兒科感染症學會研究 Pediatr Infect Dis J 2025-05-13

重點整理：雖然AI正在改變醫學領域，但在小兒科方面的研究還很少。這項研究發現，一個免費、未經專門訓練的大型語言模型，針對13種常見小兒感染情境，能夠提供可靠的抗生素處方建議。 PubMed DOI

Enhancing the Accuracy of Human Phenotype Ontology Identification: Comparative Evaluation of Multimodal Large Language Models.
提升 Human Phenotype Ontology 辨識的準確性：多模態大型語言模型的比較評估 J Med Internet Res 2025-06-02

這項研究發現，年輕醫師在多模態大型語言模型（像ChatGPT-4o）協助下，辨識罕見疾病影像的HPO術語準確率大幅提升（67.4%對20.4%），而且不同專科間表現更一致。不過，這些模型還是常出現錯誤或亂編術語。受過相關訓練的醫師表現更好。總結來說，MLLM能幫助提升準確度，但臨床應用前還需再優化。 PubMed DOI

Performance evaluation of large language models in pediatric nephrology clinical decision support: a comprehensive assessment.
大型語言模型於兒童腎臟科臨床決策支援之表現評估：全面性評估 Pediatr Nephrol 2025-06-03

這項研究發現，雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳，正確率達86.9%，但所有模型都會出現幻覺，甚至可能給出危險建議。即使用專業資料微調，推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作，還不適合獨立臨床應用，未來需加強可靠性與可解釋性。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

Enhancing Pulmonary Disease Prediction Using Large Language Models With Feature Summarization and Hybrid Retrieval-Augmented Generation: Multicenter Methodological Study Based on Radiology Report.
利用特徵摘要與混合檢索增強生成（Hybrid Retrieval-Augmented Generation），結合大型語言模型提升肺部疾病預測：基於放射報告的多中心方法學研究 J Med Internet Res 2025-06-11

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法，能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試，結果比傳統深度學習和其他提示法更準，外部驗證也表現優異。此方法不僅提升可解釋性，也有助臨床更精確診斷。 PubMed DOI

Using large language models to extract information from pediatric clinical reports.
利用大型語言模型從兒科臨床報告中擷取資訊 PLOS Digit Health 2025-07-23

大部分醫療紀錄都是非結構化，讓資料分析很困難。這項研究測試九種大型語言模型，能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型，表現都很優秀，最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案，有機會取代人工處理。 PubMed DOI

原始文章

站上相關主題文章列表