Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。 Nat Commun 2024-03-09

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳，尤其在常見疾病方面。商業LLMs有潛力用於醫學問答，但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

A systematic evaluation of the performance of GPT-4 and PaLM2 to diagnose comorbidities in MIMIC-IV patients.
GPT-4和PaLM2在MIMIC-IV患者中診斷合併症表現的系統評估。 Health Care Sci 2024-06-28

研究用醫院病歷數據評估GPT-4和PaLM2的診斷準確度，結果發現GPT-4達93.9%，PaLM2為84.7%。顯示人工智慧可協助減少診斷錯誤，但仍需人類監督。整合AI到醫療面臨道德、責任和監管挑戰。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

The potential and pitfalls of using a large language model such as ChatGPT, GPT-4, or LLaMA as a clinical assistant.
使用大型語言模型如ChatGPT、GPT-4或LLaMA作為臨床助手的潛力與陷阱。 J Am Med Inform Assoc 2024-07-17

研究評估了大型語言模型在醫療保健領域的應用，尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄，測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異，而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力，但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計，以更好地應用於醫療保健。 PubMed DOI

Evaluating the use of large language models to provide clinical recommendations in the Emergency Department.
評估大型語言模型在急診科提供臨床建議的應用。 Nat Commun 2024-10-08

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現，分析了10,000次就診。結果顯示，這兩個模型的準確性都不如住院醫師，GPT-4-turbo平均低8%，而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好，但特異性較低，顯示出建議過於謹慎。研究指出，儘管LLMs在臨床應用上有潛力，但在成為可靠的醫療決策支持系統前，仍需大幅改進。 PubMed DOI

ChatGPT-4 extraction of heart failure symptoms and signs from electronic health records.
從電子健康紀錄中提取心衰竭症狀和體徵。 Prog Cardiovasc Dis 2024-10-23

這項研究評估了 ChatGPT-4 在從電子健康紀錄中提取心臟衰竭症狀的零樣本學習效果。研究人員將其表現與傳統機器學習和基於規則的方法進行比較，結果顯示 ChatGPT-4 的精確度達 90.6%、召回率 100% 和 F1 分數 95%，遠超過傳統方法的 54.9% 精確度。研究還指出，提示風格和溫度設置會影響表現。總體來看，這顯示 ChatGPT-4 在醫療自然語言處理上的潛力。 PubMed DOI

Extraction of clinical data on major pulmonary diseases from unstructured radiologic reports using a large language model.
使用大型語言模型從非結構化放射學報告中提取主要肺部疾病的臨床數據。 PLoS One 2024-11-25

這項研究探討大型語言模型（LLMs）在從非結構化放射報告中提取臨床數據的效果，專注於七種肺部疾病。研究分析了1,800份報告，並使用Google Gemini Pro 1.0、OpenAI的GPT-3.5和GPT-4進行數據提取。結果顯示，所有模型的準確率都很高，特別是GPT-4的表現最佳，敏感性和特異性均達到優秀水準。這些結果顯示，LLMs，尤其是GPT-4，可能成為醫生進行病歷審查的有效替代方案，提升非結構化放射數據的提取能力。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

GPT-4 in Clinical Practice: Assessing Its Capability for Symptom Extraction from Cancer Patient Notes.
GPT-4 在臨床實踐中的應用：評估其從癌症病人筆記中提取症狀的能力。 Stud Health Technol Inform 2025-04-09

這項研究評估了GPT-4o在MIMIC-III數據集中提取病人症狀和體徵的能力，強調準確提取對診斷和治療的重要性。研究測試了兩個溫度設定（1和0.3），發現較高的溫度（1）能產生多樣化的輸出，平均精確度達79%，特異性96%，但變異性大。相對而言，較低的溫度（0.3）則輸出較保守，平均精確度僅45%。儘管有變異性，最佳溫度下的高召回率和特異性顯示，GPT-4可能成為臨床提取症狀和體徵的有用輔助工具。 PubMed DOI

原始文章

站上相關主題文章列表