原始文章

這項研究評估了大型語言模型(LLMs),特別是GPT-4,在識別肝硬化患者方面的有效性,並與傳統診斷代碼和手動病歷審查進行比較。研究分析了3,788名肝硬化住院病人的出院摘要,結果顯示LLMs的準確性顯著高於基於代碼的分類,肝硬化及其併發症的正確預測值(PPV)介於87.8%到98.8%之間。這表明LLMs能更準確地識別肝硬化患者,可能減少對繁瑣病歷審查的需求,提高分類的可靠性。 PubMed DOI


站上相關主題文章列表

研究指出GPT-4在辨識胃腸道出血方面表現優異,準確率高達94.4%,比ICD碼更好。與人工審查相比,表現相當或稍微差一點。GPT-4效率高、成本低,可快速分析數據,是臨床事件分類的可靠替代方案,有助於提升臨床研究品質。未來研究應該探討高效人工智慧模型在臨床數據處理的可擴展性、模型調整和道德影響。 PubMed DOI

研究評估了GPT-4在腎臟手術後併發症的表現,結果顯示檢測準確率高,但解釋Clavien-Dindo分類和特定機構的困難。GPT-4需進一步改進在解釋複雜醫學信息方面。 PubMed DOI

研究用醫院病歷數據評估GPT-4和PaLM2的診斷準確度,結果發現GPT-4達93.9%,PaLM2為84.7%。顯示人工智慧可協助減少診斷錯誤,但仍需人類監督。整合AI到醫療面臨道德、責任和監管挑戰。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

這項研究提出了一個新流程,利用大型語言模型(LLMs)來識別電子健康紀錄中的腸胃出血(GIB)。研究分析了17,712份急性GIB住院患者的護理紀錄,開發出一個機器學習模型,能準確檢測復發性出血並確保正確的報銷編碼。該模型在識別黑便、鮮血便和嘔血方面準確度超過85%,復發性出血的AUC值達0.986,並帶來每位患者平均增加1,299至3,247美元的報銷,總計174萬美元。整體而言,這個基於LLM的流程有助於提升患者管理及優化GIB案例的質量指標編碼。 PubMed DOI

本研究探討大型語言模型(LLMs),特別是GPT-3.5 turbo和GPT-4,如何提取肝細胞癌病理報告中的關鍵要素。考量到手動整理報告的困難,研究比較了LLMs與傳統的正則表達式(REGEX)方法的準確性。共分析了88份病理報告,重點在五個關鍵要素。結果顯示,LLMs和REGEX的提取準確性均相當,介於84.1%到94.8%之間。研究指出,LLMs有潛力顯著簡化提取過程,進而加速癌症研究的進展。 PubMed DOI

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在診斷代謝功能障礙相關脂肪肝病(MASLD)的有效性,數據來自2017-2018年的NHANES。結果顯示,GPT-4的診斷準確性與傳統評分系統(如脂肪肝指數)相當,ROC曲線下面積(AUROC)分別為0.831、0.817和0.827,且優於GPT-3.5。此外,GPT-4V在解讀MASLD患者的超音波影像上顯示潛力,但準確性仍不及經驗豐富的放射科醫師。總體而言,GPT-4在診斷MASLD方面表現良好,並在便利性和多樣性上具優勢。 PubMed DOI

肝腎症候群 - 急性腎損傷 (HRS-AKI) 是失代償性肝硬化患者常見且難以預測的併發症。本研究探討使用大型語言模型 (LLMs) 如 GPT-4o 的情感分析,是否能提升傳統預測方法的準確性。研究發現,情感分數與 HRS-AKI 的診斷有關聯,加入情感分數後,預測準確性顯著提升,接收者操作特徵曲線下面積 (AUROC) 從 0.639 增加到 0.758,顯示 GPT-4o 在臨床文本分析中的潛力。 PubMed DOI