Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large Language Models Outperform Traditional Natural Language Processing Methods in Extracting Patient-Reported Outcomes in Inflammatory Bowel Disease.
大型語言模型在提取炎症性腸病患者報告結果方面優於傳統自然語言處理方法。 Gastro Hep Adv 2025-01-29

這項研究探討如何從電子健康紀錄中提取與炎症性腸病（IBD）相關的病人報告結果（PROs），比較了傳統自然語言處理（tNLP）和大型語言模型（LLMs）如GPT-4的表現。研究發現，GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP，特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力，且不受人口統計或診斷偏見影響。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

Leveraging Large Language Models for Predicting Postoperative Acute Kidney Injury in Elderly Patients.
利用大型語言模型預測老年患者術後急性腎損傷。 BME Front 2025-03-12

本研究旨在建立一個框架，利用大型語言模型（LLMs）預測老年患者術後急性腎損傷（AKI）的結果。研究顯示，LLMs克服了傳統機器學習模型在預測疾病時的低泛化能力和可解釋性問題。透過提示工程和知識蒸餾，我們評估了來自中國和南韓的數據，結果顯示LLMs在準確率上優於傳統模型，並提供了可讀的解釋，改善臨床理解。此框架為臨床提供了更可靠的預測工具。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

What is the role of large language models in the management of urolithiasis?: a review.
大型語言模型在尿路結石管理中的角色：綜述 Urolithiasis 2025-05-15

這篇評論指出，像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯，能幫助病人和醫護人員。不過，有時用詞太專業、同理心表現也不夠穩定。雖然有潛力，但遇到複雜情況還是需要專家把關，目前只能當輔助工具，不能取代醫師專業。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

Identifying Kidney Stone Risk Factors Through Patient Experiences With a Large Language Model: Text Analysis and Empirical Study.
透過大型語言模型分析病患經驗以識別腎結石風險因子：文本分析與實證研究 J Med Internet Res 2025-05-22

這項研究開發了 KSrisk-GPT 工具，能從知乎留言中準確找出腎結石的風險因子，像是飲食、喝水量、遺傳和生活習慣等，還發現補充保健品和濫用瀉藥也是潛在風險。這證明大型語言模型能有效從社群媒體挖掘健康風險，對疾病預防很有幫助。 PubMed DOI

Performance evaluation of large language models in pediatric nephrology clinical decision support: a comprehensive assessment.
大型語言模型於兒童腎臟科臨床決策支援之表現評估：全面性評估 Pediatr Nephrol 2025-06-03

這項研究發現，雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳，正確率達86.9%，但所有模型都會出現幻覺，甚至可能給出危險建議。即使用專業資料微調，推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作，還不適合獨立臨床應用，未來需加強可靠性與可解釋性。 PubMed DOI

原始文章

站上相關主題文章列表