Assessing the Adherence of ChatGPT Chatbots to Public Health Guidelines for Smoking Cessation: Content Analysis.
評估 ChatGPT 聊天機器人對於戒菸公共衛生指導方針的遵循情況：內容分析。 J Med Internet Res 2025-01-30

這項研究評估了三款 ChatGPT 聊天機器人提供的戒菸資訊可靠性，包括世界衛生組織的 Sarah、BeFreeGPT 和 BasicGPT。研究發現，這些機器人平均遵循了 57.1% 的指導方針，其中 Sarah 表現最佳（72.2%），而 BeFreeGPT 和 BasicGPT 分別為 50% 和 47.8%。大部分回應清晰（97.3%）並建議尋求專業諮詢（80.3%），但對尼古丁替代療法（52.7%）和社會支持（55.6%）的建議不足。約 22% 的回應含有錯誤資訊，特別是關於非常規戒菸方法。研究建議改進聊天機器人的指導以彌補這些不足。 PubMed DOI

Decoding substance use disorder severity from clinical notes using a large language model.
利用大型語言模型解碼臨床筆記中的物質使用障礙嚴重程度。 Npj Ment Health Res 2025-02-06

物質使用障礙（SUD）是影響個人健康與社會福祉的重要議題。診斷與治療SUD需考量多種因素，但現行的診斷系統如ICD-10常缺乏必要細節，醫師需依賴DSM-5補充資訊。傳統自然語言處理（NLP）在解讀臨床語言上有困難，但大型語言模型（LLMs）顯示出潛力。本研究探討如何利用LLMs從臨床筆記中提取SUD的嚴重程度資訊，實驗結果顯示開源LLM Flan-T5在召回率上優於傳統方法，能有效提升SUD患者的風險評估與治療規劃。 PubMed DOI

SBDH-Reader: an LLM-powered method for extracting social and behavioral determinants of health from medical notes.
SBDH-Reader：一種基於 LLM 的方法，用於從醫療筆記中提取社會和行為健康決定因素。 medRxiv 2025-03-04

SBDH-Reader是一個創新的工具，利用大型語言模型從醫療筆記中提取社會和行為健康決定因素（SBDH）數據。這個工具基於7,225份MIMIC-III數據庫的醫療筆記訓練，並在UT Southwestern Medical Center的971份病人筆記上測試，專注於就業、住房、婚姻關係和物質使用等六個類別。性能指標顯示，SBDH-Reader在各類別中取得了0.85到0.98的宏觀平均F1分數，特別是在識別不良屬性方面表現優異。總體而言，這個工具能有效提升臨床研究和病人照護的數據提取能力。 PubMed DOI

Understanding contraceptive switching rationales from real world clinical notes using large language models.
運用大型語言模型解析臨床紀錄中避孕方法更換的原因 NPJ Digit Med 2025-04-24

這項研究發現，GPT-4能準確從醫療紀錄中擷取避孕方式的更換資訊及其原因，準確率超過91%。這代表大型語言模型在分析醫療紀錄、協助醫療決策上很有潛力。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

Exploring the Potential of GPT-4 in Creating Billing Codes from Clinic Notes.
探討 GPT-4 於從門診紀錄生成醫療計費代碼的潛力 Stud Health Technol Inform 2025-05-17

這項研究發現，GPT-4自動分配醫療收費代碼的正確率偏低，僅約2到3成，無論是根據代碼描述還是實際門診紀錄。雖然GPT-4有潛力，但目前還無法精確處理醫療收費代碼的複雜細節，實務應用上還有很大進步空間。 PubMed DOI

Enhancing Substance Use Detection in Clinical Notes with Large Language Models.
利用大型語言模型提升臨床紀錄中物質使用偵測能力 Res Sq 2025-06-05

這篇研究用標註過的出院摘要，建立大規模資料集，並用多種大型語言模型來偵測八種物質使用情形。經過微調的 Llama-DrugDetector-70B 模型，對大多數物質的偵測準確率很高（F1 分數 ≥ 0.95），但像鴉片類藥物和多重物質使用的偵測還有進步空間。整體來說，LLM 有助提升臨床紀錄中物質使用的辨識，但還需要更多研究才能廣泛應用。 PubMed DOI

Use of Large Language Models to Extract Cost-Effectiveness Analysis Data: A Case Study.
運用大型語言模型萃取成本效益分析資料：一項個案研究 Value Health 2025-06-06

這項研究發現，客製化的ChatGPT模型在從成本效益分析論文擷取資料時，整體準確度跟現有資料庫差不多，有些變項甚至更好。不過，遇到複雜資訊（像效用值）時，表現就比較差。總結來說，AI可以幫忙自動化資料擷取，但複雜內容還是需要專家審核。 PubMed DOI

Verifiable Summarization of Electronic Health Records Using Large Language Models to Support Chart Review.
使用大型語言模型驗證性摘要電子健康紀錄以支援病歷審查 medRxiv 2025-06-12

這項研究發現，用大型語言模型自動產生心臟衰竭住院摘要，能幫助部分醫師更快回答問題，且準確率沒變。大多數醫師認為這樣能省時間，也願意使用，但摘要格式要配合個人需求。整體來說，LLM有助提升醫師效率，但摘要內容還需客製化。 PubMed DOI

原始文章

站上相關主題文章列表