The foundational capabilities of large language models in predicting postoperative risks using clinical notes.
大型語言模型在利用臨床筆記預測術後風險的基礎能力。 NPJ Digit Med 2025-02-11

這項研究探討大型語言模型（LLMs）在預測病人術後風險的應用，分析了2018至2021年間的84,875份術前臨床筆記。結果顯示，LLMs在預測準確度上顯著優於傳統技術，AUROC提升了38.3%，AUPRC增長33.2%。透過自我監督微調，AUROC和AUPRC分別再增長3.2%和1.5%。加入標籤後，AUROC和AUPRC也有進一步提升。這些結果顯示LLMs在術後風險預測中具備重要應用潛力。 PubMed DOI

Mapping the Advanced-Stage Epithelial Ovarian Cancer Landscape Goes Beyond Words: Two Large Language Models, Eight Tasks, One Journey.
超越文字的晚期上皮卵巢癌景觀映射：兩個大型語言模型，八個任務，一段旅程。 J Clin Med 2025-04-12

本研究探討了深度學習模型在預測晚期上皮性卵巢癌患者手術結果的有效性，特別是使用非結構化的手術筆記。評估了RoBERTa和GatorTron兩個模型，結果顯示GatorTron在大多數任務中表現優於RoBERTa，顯示專為醫療設計的模型在理解醫療語言上有明顯優勢。不過，兩者在預測術後併發症和住院時間時仍面臨挑戰，顯示手術文本不足以全面反映術後恢復的複雜性。這些發現對提升患者護理質量的醫療AI系統發展至關重要。 PubMed DOI

Enhancing Malignancy Detection and Tumor Classification in Pathology Reports: A Comparative Evaluation of Large Language Models.
提升病理報告中惡性腫瘤偵測與腫瘤分類的能力：大型語言模型的比較評估 Stud Health Technol Inform 2025-04-24

這項研究用GPT-4o和Llama3.3等大型語言模型，測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示，這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀，有機會讓癌症登記流程更快、更可靠，提升公共衛生和臨床照護品質。 PubMed DOI

Large language models for extracting histopathologic diagnoses of colorectal cancer and dysplasia from electronic health records.
運用大型語言模型從電子健康紀錄中擷取大腸直腸癌與異生症的組織病理診斷 medRxiv 2025-05-02

這項研究發現，開源大型語言模型（LLMs）能準確從電子病歷的病理報告中，萃取癌症和異型增生等重要診斷，連複雜案例也適用。只用簡單「是/否」提示，在美國退伍軍人健康管理局資料庫中，診斷準確率超過93%。這方法不但省資源、設定簡單，還能大規模應用，對臨床和研究都很有幫助。 PubMed DOI

Automated generation of discharge summaries: leveraging large language models with clinical data.
自動生成出院摘要：結合臨床資料與大型語言模型 Sci Rep 2025-05-12

這項研究用開源大型語言模型（像LLaMA3）自動產生德文出院摘要，並請醫師評估品質。結果顯示，AI生成的摘要資訊算完整，但常漏掉重要細節或出現錯誤，尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰，建議未來要用更多資料和微調模型，才能提升表現。 PubMed DOI

Evaluating Large Language Model's accuracy in current procedural terminology coding given operative note templates across various plastic surgery sub-specialties.
針對不同整形外科次專科手術紀錄範本，評估大型語言模型於Current Procedural Terminology (CPT) 編碼的準確性 J Plast Reconstr Aesthet Surg 2025-05-14

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現，結果發現三者準確率都很低（最高僅19.2%）。Gemini在美學手術較佳，Copilot則在一般重建手術表現較好，但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確，仍需人工審核。 PubMed DOI

Zero-shot large language model application for surgical site infection auditing.
零樣本大型語言模型於手術部位感染稽核的應用 Infect Dis Health 2025-05-22

這項研究用 Llama 3.0 大型語言模型分析兩家醫院的病歷，來偵測手術部位感染。28位病人中，LLM準確率達93%，敏感度100%，特異度86%。模型多半能和醫師一樣早，甚至更早發現感染。結果顯示 LLM 有潛力協助醫療篩檢，但臨床應用前還需更多研究驗證。 PubMed DOI

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Predicting 30-Day Postoperative Mortality and American Society of Anesthesiologists Physical Status Using Retrieval-Augmented Large Language Models: Development and Validation Study.
利用檢索增強大型語言模型預測30天術後死亡率與美國麻醉醫師學會身體狀態：開發與驗證研究 J Med Internet Res 2025-06-03

這項研究發現，把大型語言模型（LLM）結合檢索增強生成（RAG）技術，能更準確預測病患30天內的術後死亡率和ASA分級，尤其在辨識高風險個案時表現更好。LLaMA-RAG模型的準確度和解釋性都優於傳統方法，顯示這種AI工具有助於臨床決策輔助，未來在醫療現場很有應用潛力。 PubMed DOI

Applying Large Language Models for Surgical Case Length Prediction.
應用大型語言模型於外科手術時間預測 JAMA Surg 2025-07-09

研究發現，經微調的GPT-4能從臨床紀錄中預測手術時間，準確度比傳統方法更高。在超過12萬5千個案例中，GPT-4平均誤差約48分鐘，顯示大型語言模型有助提升手術室排程效率，未來有望改善醫療資源運用。 PubMed DOI

原始文章

站上相關主題文章列表