原始文章

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI


站上相關主題文章列表

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

本研究旨在建立一個框架,利用大型語言模型(LLMs)預測老年患者術後急性腎損傷(AKI)的結果。研究顯示,LLMs克服了傳統機器學習模型在預測疾病時的低泛化能力和可解釋性問題。透過提示工程和知識蒸餾,我們評估了來自中國和南韓的數據,結果顯示LLMs在準確率上優於傳統模型,並提供了可讀的解釋,改善臨床理解。此框架為臨床提供了更可靠的預測工具。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

這篇評論指出,像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯,能幫助病人和醫護人員。不過,有時用詞太專業、同理心表現也不夠穩定。雖然有潛力,但遇到複雜情況還是需要專家把關,目前只能當輔助工具,不能取代醫師專業。 PubMed DOI

這項研究用模擬病人測試ChatGPT(GPT-4o和GPT-4-Turbo)在急診分級和門診指引的表現。經過優化後,GPT-4-Turbo用MEWS分級達到100%準確率,優於GPT-4o(96.2%);GPT-4o在門診科別選擇也有92.6%高準確率,且情感回應更好。結果顯示,經設計的ChatGPT能有效協助急診分級與指引,但還需更多臨床驗證。 PubMed DOI

這項研究開發了 KSrisk-GPT 工具,能從知乎留言中準確找出腎結石的風險因子,像是飲食、喝水量、遺傳和生活習慣等,還發現補充保健品和濫用瀉藥也是潛在風險。這證明大型語言模型能有效從社群媒體挖掘健康風險,對疾病預防很有幫助。 PubMed DOI

這項研究發現,雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳,正確率達86.9%,但所有模型都會出現幻覺,甚至可能給出危險建議。即使用專業資料微調,推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作,還不適合獨立臨床應用,未來需加強可靠性與可解釋性。 PubMed DOI