Leveraging GPT-4 for identifying cancer phenotypes in electronic health records: a performance comparison between GPT-4, GPT-3.5-turbo, Flan-T5, Llama-3-8B, and spaCy's rule-based and machine learning-based methods.
利用 GPT-4 在電子健康記錄中識別癌症表現：GPT-4、GPT-3.5-turbo、Flan-T5、Llama-3-8B，以及spaCy基於規則和機器學習方法的性能比較。 JAMIA Open 2024-07-04

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄，結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率，具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值，因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large language models outperform traditional structured data-based approaches in identifying immunosuppressed patients.
大型語言模型在識別免疫抑制患者方面優於傳統的基於結構化數據的方法。 medRxiv 2025-01-27

透過結構化數據來識別免疫抑制患者相當困難，但像GPT-4o這樣的大型語言模型在從非結構化的臨床文本中提取結構化概念方面表現優異。我們的研究顯示，GPT-4o在分析住院紀錄時，能有效識別免疫抑制狀況和藥物使用，超越傳統方法。此外，這種技術也能成功應用於外部數據集。雖然GPT-4o mini和Llama 3.1等成本較低的模型也有不錯的表現，但仍無法與GPT-4o相比。 PubMed DOI

Large Language Models Outperform Traditional Natural Language Processing Methods in Extracting Patient-Reported Outcomes in Inflammatory Bowel Disease.
大型語言模型在提取炎症性腸病患者報告結果方面優於傳統自然語言處理方法。 Gastro Hep Adv 2025-01-29

這項研究探討如何從電子健康紀錄中提取與炎症性腸病（IBD）相關的病人報告結果（PROs），比較了傳統自然語言處理（tNLP）和大型語言模型（LLMs）如GPT-4的表現。研究發現，GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP，特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力，且不受人口統計或診斷偏見影響。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Enhancing Relation Extraction for COVID-19 Vaccine Shot-Adverse Event Associations with Large Language Models.
利用大型語言模型增強 COVID-19 疫苗接種與不良事件之間的關係提取。 Res Sq 2025-04-01

這項研究探討COVID-19疫苗與不良事件的關聯，數據來自疫苗不良事件報告系統（VAERS）及社交媒體如Twitter和Reddit。分析了771對關聯，識別不同疫苗接種後的不良事件模式。使用了先進模型如GPT-3.5、GPT-4等進行關聯提取，並透過後處理規則精煉結果。經微調的GPT-3.5達到0.94的精確度和1的召回率。主要疫苗接種後常見的不良事件有手臂酸痛、疲勞和頭痛，而加強針則報告了更多不良事件，顯示大型語言模型在疫苗安全監測中的潛力。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Predicting Immunotherapy Response in Unresectable Hepatocellular Carcinoma: A Comparative Study of Large Language Models and Human Experts.
不可切除性肝細胞癌免疫治療反應之預測：大型語言模型與人類專家之比較研究 J Med Syst 2025-05-15

這項研究發現，結合多種大型語言模型（如Gemini-GPT）在預測肝細胞癌免疫治療反應上，表現和資深醫師差不多，甚至比資淺醫師更好。不過，模型的敏感度還是比資深醫師低。整體來說，這些AI工具未來有機會協助醫師做臨床決策。 PubMed DOI

原始文章

站上相關主題文章列表