Leveraging GPT-4 for identifying cancer phenotypes in electronic health records: a performance comparison between GPT-4, GPT-3.5-turbo, Flan-T5, Llama-3-8B, and spaCy's rule-based and machine learning-based methods.
利用 GPT-4 在電子健康記錄中識別癌症表現：GPT-4、GPT-3.5-turbo、Flan-T5、Llama-3-8B，以及spaCy基於規則和機器學習方法的性能比較。 JAMIA Open 2024-07-04

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄，結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率，具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值，因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

Extraction of clinical data on major pulmonary diseases from unstructured radiologic reports using a large language model.
使用大型語言模型從非結構化放射學報告中提取主要肺部疾病的臨床數據。 PLoS One 2024-11-25

這項研究探討大型語言模型（LLMs）在從非結構化放射報告中提取臨床數據的效果，專注於七種肺部疾病。研究分析了1,800份報告，並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示，所有模型的準確率都很高，特別是GPT-4的表現最佳，敏感性和特異性均達到優秀水準。這些結果顯示，LLMs，尤其是GPT-4，可能成為醫生進行病歷審查的有效替代方案，提升非結構化放射數據的提取能力。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large Language Models Outperform Traditional Natural Language Processing Methods in Extracting Patient-Reported Outcomes in Inflammatory Bowel Disease.
大型語言模型在提取炎症性腸病患者報告結果方面優於傳統自然語言處理方法。 Gastro Hep Adv 2025-01-29

這項研究探討如何從電子健康紀錄中提取與炎症性腸病（IBD）相關的病人報告結果（PROs），比較了傳統自然語言處理（tNLP）和大型語言模型（LLMs）如GPT-4的表現。研究發現，GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP，特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力，且不受人口統計或診斷偏見影響。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

irAE-GPT: Leveraging large language models to identify immune-related adverse events in electronic health records and clinical trial datasets.
irAE-GPT：利用大型語言模型識別電子健康紀錄和臨床試驗數據集中的免疫相關不良事件。 medRxiv 2025-03-17

這項研究探討了生成預訓練變壓器（GPT）模型，特別是GPT-3.5、GPT-4和GPT-4o，如何在非結構化病人筆記中識別與免疫檢查點抑制劑（ICI）療法相關的免疫相關不良事件（irAEs）。分析了442名病人，發現常見的irAEs包括肺炎、結腸炎、皮疹和肝炎。雖然GPT模型在敏感性和特異性上表現良好，但正向預測值中等，顯示出過度預測的傾向。GPT-4o在血液、胃腸和肌肉骨骼類別中表現最佳。研究建議這些模型可自動化檢測irAEs，減輕醫療人員負擔，增強病人安全監測。 PubMed DOI

Evaluation of the Performance of a Large Language Model to Extract Signs and Symptoms from Clinical Notes.
大型語言模型在臨床筆記中提取徵兆和症狀的表現評估。 Stud Health Technol Inform 2025-04-09

這項研究評估了GPT-4o大型語言模型在從非結構化的臨床筆記中提取徵兆和症狀的表現。研究使用MTSamples語料庫的手動標註筆記作為比較，並透過命名實體識別技術進行提取。結果顯示，GPT-4o在一般提取中達到78%的精確度，心肺數據集更高達87%，泌尿數據集則為81%。雖然模型表現良好，但在專業領域仍需進一步調整以提升召回率和適用性。 PubMed DOI

Large Language Models in Action: Supporting Clinical Evaluation in an Infectious Disease Unit.
大型語言模型的應用：支援感染症單位的臨床評估 Healthcare (Basel) 2025-04-26

這項研究發現，ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯，但在隔離措施和壓瘡辨識上有失誤。整體來說，LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

Predicting Immunotherapy Response in Unresectable Hepatocellular Carcinoma: A Comparative Study of Large Language Models and Human Experts.
不可切除性肝細胞癌免疫治療反應之預測：大型語言模型與人類專家之比較研究 J Med Syst 2025-05-15

這項研究發現，結合多種大型語言模型（如Gemini-GPT）在預測肝細胞癌免疫治療反應上，表現和資深醫師差不多，甚至比資淺醫師更好。不過，模型的敏感度還是比資深醫師低。整體來說，這些AI工具未來有機會協助醫師做臨床決策。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

原始文章

站上相關主題文章列表