原始文章

病人安全事件(PSE)報告的分析對提升病人安全非常重要,但報告中的語言混雜,造成挑戰。本研究提出數據驅動的評估策略,檢視大型語言模型(LLMs)在分析PSE報告的適用性。研究發現,LLMs在七個事件類別中有六個類別的困惑度存在顯著差異。臨床模型對醫療專業人員撰寫的臨床敘述理解較好,而通用模型則在口語化語言和溝通主題上表現較佳。研究結論指出,LLMs需與文本特徵強烈對齊,單一模型可能無法最佳分析PSE報告。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究強調人類評估在醫療大型語言模型(LLMs)中的重要性,回顧了各醫學專科的評估方法,特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示,現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題,作者提出了QUEST框架,包含規劃、實施與裁定、評分與審查三個階段,並圍繞五個關鍵評估原則,旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域的評估,指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章,資料來自PubMed、Embase和MEDLINE。結果顯示,LLM的評估主要分為測試考試和醫療專業人員的評估,部分研究則結合兩者。大多數評估問題數量不超過100題,且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論,以提升LLM在醫療應用中的表現。 PubMed DOI

這項研究探討大型語言模型(LLM)生成的急診醫學交接筆記,針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行,分析了1,600份病人紀錄。結果顯示,LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記,但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時,醫生參與的重要性,並提供了評估病人安全的框架。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰,並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷,發現40例肺栓塞不良事件,流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組,評估了四個開源模型,結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能,並建議未來應加強上下文理解和醫學術語解釋,以提升檢測能力。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在生成病人教育材料(PEMs)的應用。研究人員根據JBI指導方針,從五個資料庫中篩選出69項相關研究,並提取了21個變數,分為五個主題。主要發現包括:美國的研究最多,最常用的LLM是ChatGPT-4、3.5和Bard,大多數研究集中在評估生成回應的準確性和可讀性,只有三項研究使用外部知識庫,且大部分提示為英語。總體而言,這項回顧顯示LLMs在創建有效病人教育材料方面的潛力,並指出評估框架和多語言應用的不足。 PubMed DOI