Improving large language models for clinical named entity recognition via prompt engineering.
透過提示工程改善臨床命名實體識別的大型語言模型。 J Am Med Inform Assoc 2024-01-28

研究指出，GPT-3.5和GPT-4處理臨床數據時，只需少量訓練數據即可提取有價值資訊。透過改進提示策略，可增進模型在臨床命名實體識別任務表現，減少大量標註數據需求。雖GPT模型在臨床應用有潛力，仍需進一步改進。研究結果凸顯了量身定制的提示框架重要性，以提高大型語言模型在臨床環境性能。 PubMed DOI

Generative large language models are all-purpose text analytics engines: text-to-text learning is all your need.
生成式大型語言模型是通用的文本分析引擎：文本到文本學習是您所需的一切。 J Am Med Inform Assoc 2024-04-17

研究提出新方法，使用GatorTronGPT語言模型處理臨床自然語言任務。透過提示調整，模型表現優異，比以往更先進。在概念提取、關係提取、規範化、消歧義和推理任務中，比變壓器模型更出色。這統一的LLM模型有效處理多臨床任務，展現全面解決方案的潛力。 PubMed DOI

Using large language models for safety-related table summarization in clinical study reports.
使用大型語言模型進行臨床研究報告中與安全相關的表格摘要。 JAMIA Open 2024-05-31

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件，尤其是為CSRs創建安全表摘要。評估顯示性能差異，特別是在事實準確性和寫作風格方面。團隊多使用GPT模型，改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力，強調需優化人類輸入和持續研究。 PubMed DOI

Learning to match patients to clinical trials using large language models.
使用大型語言模型學習將患者匹配到臨床試驗。 J Biomed Inform 2024-10-10

這項研究探討大型語言模型（LLMs）在提升病人與臨床試驗（CTs）匹配的應用，並以資訊檢索為框架。研究開發了一個多階段檢索管道，結合BM25、Transformer排名器及LLM方法，數據來自TREC臨床試驗2021-23。結果顯示，微調的LLM在查詢形成、過濾及重新排名上表現優於傳統方法，提升了識別合格試驗的有效性。雖然LLMs具競爭力，但計算成本較高，效率降低。未來研究應聚焦於優化成本與檢索有效性之間的平衡。 PubMed DOI

Matching patients to clinical trials with large language models.
利用大型語言模型為患者匹配臨床試驗。 Nat Commun 2024-11-18

臨床試驗的病人招募常常困難，但TrialGPT提供了解決方案。它的框架包含三個主要模組： 1. **TrialGPT-Retrieval**：能有效篩選和檢索試驗，回收率超過90%，只用不到6%的資料。 2. **TrialGPT-Matching**：評估病人符合性，準確率達87.3%，與專家相當，並提供清晰解釋。 3. **TrialGPT-Ranking**：生成的試驗分數與人類判斷一致，排名準確度超越競爭對手43.8%。使用者研究顯示，TrialGPT能減少42.6%的篩選時間，顯示出在病人與試驗匹配上的進展。 PubMed DOI

Large language models for data extraction from unstructured and semi-structured electronic health records: a multiple model performance evaluation.
從非結構化和半結構化電子健康紀錄中提取數據的大型語言模型：多模型性能評估。 BMJ Health Care Inform 2025-01-20

這項研究評估了多種大型語言模型（LLMs）在從電子健康紀錄中提取數據的表現，使用了50份合成醫療筆記。共測試了18個LLM，並與基準模型RoBERTa比較，涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等，準確率超過0.98，明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性，顯示出能有效協助數據提取，減輕醫療人員的負擔。不過，仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

Exploration of Using an Open-Source Large Language Model for Analyzing Trial Information: A Case Study of Clinical Trials With Decentralized Elements.
探索使用開源大型語言模型分析試驗資訊：一個包含去中心化元素的臨床試驗案例研究。 Clin Transl Sci 2025-03-03

這項研究探討了使用開源大型語言模型Llama 3，分析2018至2023年間去中心化臨床試驗（DCTs）的趨勢，並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據，使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示，微調模型能提高敏感性，但正確預測值較低，需專注於DCT術語。最終識別出692個DCT，主要為第二期試驗，顯示大型語言模型在分析非結構化臨床數據的潛力，並強調管理模型偏見的重要性。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Prompting large language models to extract chemical‒disease relation precisely and comprehensively at the document level: an evaluation study.
在文件層面精確且全面地引導大型語言模型提取化學‒疾病關係：一項評估研究。 PLoS One 2025-04-08

這項研究探討大型語言模型（LLMs），如GPT-3.5、GPT-4.0和Claude-opus，在化學與疾病關係提取中的挑戰，特別是標註數據不足的情況。研究發現，這些模型在精確提取上達87%的F1分數，但全面提取僅73%。模型在提示工程上的改進有限，且對正向關係的識別較佳。提取錯誤多因模型誤解生物醫學文本的隱含意義。最後，研究提供了增強提取任務的工作流程，並強調優化訓練數據的重要性。 PubMed DOI

原始文章

站上相關主題文章列表