Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

Using Large Language Models to Retrieve Critical Data from Clinical Processes and Business Rules.
使用大型語言模型從臨床流程和商業規則中檢索關鍵數據。 Bioengineering (Basel) 2025-01-24

這項研究探討大型語言模型（LLM）LLaMA 2 在臨床護理的應用，特別是解釋複雜的護理路徑模型。傳統的診斷系統繁瑣且需頻繁更新。研究人員訓練 LLaMA 2，並測試其根據假設病人案例提供臨床建議的能力。結果顯示，LLaMA 2 在檢索診斷和建議管理步驟方面準確率高，平均節點準確率為 0.91，邊緣準確率為 0.92，顯示其在醫療資訊檢索上的潛力。未來研究應著重於提升 LLM 的可解釋性及與臨床流程的整合。 PubMed DOI

From RAGs to riches: Utilizing large language models to write documents for clinical trials.
從 RAGs 到財富：利用大型語言模型撰寫臨床試驗文件。 Clin Trials 2025-02-27

這項研究評估大型語言模型（LLMs）在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書，並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示，LLM在內容相關性和術語方面表現良好，但在臨床思維和透明度上則較差。為提升表現，研究人員採用檢索增強生成（RAG）方法，顯著改善了內容質量，提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性，並可能改變藥物開發過程。 PubMed DOI

Exploration of Using an Open-Source Large Language Model for Analyzing Trial Information: A Case Study of Clinical Trials With Decentralized Elements.
探索使用開源大型語言模型分析試驗資訊：一個包含去中心化元素的臨床試驗案例研究。 Clin Transl Sci 2025-03-03

這項研究探討了使用開源大型語言模型Llama 3，分析2018至2023年間去中心化臨床試驗（DCTs）的趨勢，並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據，使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示，微調模型能提高敏感性，但正確預測值較低，需專注於DCT術語。最終識別出692個DCT，主要為第二期試驗，顯示大型語言模型在分析非結構化臨床數據的潛力，並強調管理模型偏見的重要性。 PubMed DOI

Validating large language models against manual information extraction from case reports of drug-induced parkinsonism in patients with schizophrenia spectrum and mood disorders: a proof of concept study.
驗證大型語言模型對於從精神分裂症範疇及情緒障礙患者的藥物誘發帕金森症病例報告中手動信息提取的有效性：一項概念驗證研究。 Schizophrenia (Heidelb) 2025-03-21

這項概念驗證研究顯示，大型語言模型（LLMs）能自動將非結構化的病例報告轉換為臨床評分。我們使用標準化的臨床評分量表，並評估LLM對其輸出的信心，以改善提示策略並確保結果的可重複性。針對藥物引起的帕金森症病例報告，研究結果顯示LLM提取的數據與臨床評分者手動提取的結果相當接近，準確率高達90%。 PubMed DOI

Leveraging Data Pipeline and LLM to Advance Patient Safety Event Studies.
運用資料流程與LLM以促進病人安全事件研究 Stud Health Technol Inform 2025-05-17

這個專案用標準化流程和大型語言模型來分析MAUDE資料庫裡醫療器材報告的自由敘述，提升事件分類的準確率和效率。以內視鏡黏膜切除術為例，這方法也能應用到其他醫材。不過，若要做更全面的病人安全研究，還需要更多元且大量的報告樣本。 PubMed DOI

Detecting Adverse Drug Events in Clinical Notes Using Large Language Models.
使用大型語言模型偵測臨床紀錄中的藥物不良事件 Stud Health Technol Inform 2025-05-17

在電子病歷中找出藥物不良事件（ADEs）很困難，因為相關資訊多藏在醫師的自由書寫紀錄裡。人工審查又很耗時，所以需要自動化工具。這項研究用大型語言模型來偵測ADEs，發現不到15%的出院紀錄會明確記載ADEs與藥物的關聯，顯示通報機制還有很大改進空間。 PubMed DOI

Leveraging large language models in pharmacometrics: evaluation of NONMEM output interpretation and simulation capabilities.
在藥物計量學中運用大型語言模型：評估對 NONMEM 輸出結果的解讀與模擬能力 J Pharmacokinet Pharmacodyn 2025-06-04

這項研究比較多款大型語言模型在自動化 pharmacometrics 任務的表現，發現 Claude 3.5 Sonnet 在產生模型圖、參數表和報告上最準確且易用。ChatGPT 4o 雖能模擬，但遇到複雜模型會卡關。整體來說，LLMs 有助於簡化工作流程，但還是需要專家把關結果。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

Precision and Personalization: How Large Language Models Redefining Diagnostic Accuracy in Personalized Medicine - A Systematic Literature Review.
精準與個人化：大型語言模型如何重新定義個人化醫療中的診斷準確性——系統性文獻回顧 IEEE J Biomed Health Inform 2025-06-30

這篇回顧發現，大型語言模型（LLMs）在個人化醫療診斷上越來越常被應用，能提升診斷準確度並協助量身打造治療。不過，資料隱私、模型解釋性和可靠性還有待加強，未來需持續研究和建立相關保障，才能安心用在臨床上。 PubMed DOI

原始文章

站上相關主題文章列表