Learning to match patients to clinical trials using large language models.
使用大型語言模型學習將患者匹配到臨床試驗。 J Biomed Inform 2024-10-10

這項研究探討大型語言模型（LLMs）在提升病人與臨床試驗（CTs）匹配的應用，並以資訊檢索為框架。研究開發了一個多階段檢索管道，結合BM25、Transformer排名器及LLM方法，數據來自TREC臨床試驗2021-23。結果顯示，微調的LLM在查詢形成、過濾及重新排名上表現優於傳統方法，提升了識別合格試驗的有效性。雖然LLMs具競爭力，但計算成本較高，效率降低。未來研究應聚焦於優化成本與檢索有效性之間的平衡。 PubMed DOI

The use of large language models to enhance cancer clinical trial educational materials.
利用大型語言模型增強癌症臨床試驗教育材料的應用。 JNCI Cancer Spectr 2025-02-08

這項研究探討了大型語言模型（LLMs），特別是GPT-4，在製作癌症臨床試驗教育內容的潛力，旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書，生成簡短摘要和多選題，並透過患者調查和眾包註釋來評估其有效性。結果顯示，摘要內容可讀且具資訊性，患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高，但當要求提供未明確列出的資訊時，GPT-4的準確性較低。整體而言，研究顯示GPT-4能有效生成患者友好的教育材料，但仍需人類監督以確保準確性。 PubMed DOI

Supervised machine learning compared to large language models for identifying functional seizures from medical records.
從醫療紀錄中識別功能性癲癇的監督式機器學習與大型語言模型的比較。 Epilepsia 2025-02-17

這項研究比較了功能性癲癇發作可能性評分（FSLS）與兩個大型語言模型（ChatGPT和GPT-4）在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例，FSLS的準確率為74%，而GPT-4的準確率達85%。研究發現，LLMs的預測結果在不同時間不一致，且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患，但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂，顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

Epilepsy surgery candidate identification with artificial intelligence: An implementation study.
人工智慧在癲癇手術候選者識別中的應用研究。 J Clin Neurosci 2025-02-23

這項研究評估了機器學習演算法在識別適合癲癇手術評估病人方面的有效性，並檢視大型語言模型（LLM）在提取相關資訊的表現。研究在一所三級醫院進行，分析了310名癲癇病人的資料。使用隨機森林模型排名後，前5%的病人中有53.3%符合手術評估標準，且有20%在一個月內被轉診。LLM在提取關鍵資訊的準確率介於80%到100%之間，但仍有錯誤，顯示人工智慧在此領域的潛力與挑戰。 PubMed DOI

From RAGs to riches: Utilizing large language models to write documents for clinical trials.
從 RAGs 到財富：利用大型語言模型撰寫臨床試驗文件。 Clin Trials 2025-02-27

這項研究評估大型語言模型（LLMs）在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書，並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示，LLM在內容相關性和術語方面表現良好，但在臨床思維和透明度上則較差。為提升表現，研究人員採用檢索增強生成（RAG）方法，顯著改善了內容質量，提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性，並可能改變藥物開發過程。 PubMed DOI

Exploration of Using an Open-Source Large Language Model for Analyzing Trial Information: A Case Study of Clinical Trials With Decentralized Elements.
探索使用開源大型語言模型分析試驗資訊：一個包含去中心化元素的臨床試驗案例研究。 Clin Transl Sci 2025-03-03

這項研究探討了使用開源大型語言模型Llama 3，分析2018至2023年間去中心化臨床試驗（DCTs）的趨勢，並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據，使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示，微調模型能提高敏感性，但正確預測值較低，需專注於DCT術語。最終識別出692個DCT，主要為第二期試驗，顯示大型語言模型在分析非結構化臨床數據的潛力，並強調管理模型偏見的重要性。 PubMed DOI

Large language models for automating clinical trial matching.
大型語言模型在自動化臨床試驗匹配中的應用。 Curr Opin Urol 2025-03-21

生成式人工智慧（GAI）技術，特別是大型語言模型（LLMs），在醫學領域的應用越來越普遍，尤其是在病人與臨床試驗配對方面。研究顯示，LLMs能有效匹配病人的健康紀錄與臨床試驗資格標準，並取得良好結果。雖然自動化配對有助於提升病人參與率和減輕醫療工作負擔，但也面臨挑戰，如可能帶來虛假希望、導航困難及需人類監督等問題。進一步研究對驗證LLM在腫瘤學中的安全性和有效性至關重要。 PubMed DOI

Large Language Model-Based Assessment of Clinical Reasoning Documentation in the Electronic Health Record Across Two Institutions: Development and Validation Study.
基於大型語言模型的電子健康紀錄中臨床推理文檔評估：兩個機構的開發與驗證研究。 J Med Internet Res 2025-03-21

這項研究探討人工智慧在醫療上的應用，特別是命名實體識別（NER）和大型語言模型（LLMs），評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄，並開發了多種AI模型。NYUTron LLM在NYU表現最佳，而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量，並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

Enhancing Patient-Trial Matching With Large Language Models: A Scoping Review of Emerging Applications and Approaches.
利用大型語言模型提升病患與臨床試驗配對：新興應用與方法的範疇性回顧 JCO Clin Cancer Inform 2025-06-09

這篇文獻回顧指出，大型語言模型（LLMs）已被用來提升病患與臨床試驗配對的效率，尤其是OpenAI的模型。雖然LLMs能大幅提升配對準確度與規模，但目前仍面臨可靠性、可解釋性及過度依賴合成資料等問題。未來應加強模型調校、採用真實世界資料，並提升可解釋性，才能真正發揮其潛力。 PubMed DOI

原始文章

站上相關主題文章列表