原始文章

這項研究提出一套新框架,能提升大型語言模型(LLM)生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面,分析近1.3萬句臨床標註句子後,發現幻覺率1.47%、遺漏率3.45%。經優化後,重大錯誤率甚至比人類醫師還低,顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI


站上相關主題文章列表

將大型語言模型(LLMs)應用於臨床診斷,能提升醫生與病患的互動,但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架(CRAFT-MD),透過自然對話來評估臨床LLMs的表現。研究發現,像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集,以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

大型語言模型(LLMs)有潛力改變醫療實務,但臨床醫師需注意相關風險,特別是幻覺風險—即模型生成的虛假資訊。這些幻覺可能因訓練數據問題或模型特性而產生,若不妥善管理,可能導致不準確的診斷和治療建議。為了降低這些風險,已開發出一套技術框架,旨在安全地將LLMs整合進臨床實務,並推動更廣泛的機構實施。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

大型語言模型(LLMs)在醫療保健,特別是胃腸科,展現出提升臨床決策、研究及病人管理的潛力。為了安全有效地應用這些模型,必須解決偏見、幻覺及法規遵循等挑戰。本文提出一個結構化框架,針對C型肝炎治療進行案例研究,涵蓋臨床目標定義、多學科團隊組建、數據準備、模型選擇與微調等步驟。此外,還強調遵循HIPAA和GDPR等法規,以確保負責任的AI應用。未來研究應聚焦於多機構驗證及AI輔助的臨床試驗。 PubMed DOI

這項研究探討使用大型語言模型(LLMs)為眼科筆記創建簡明語言摘要(PLSs),旨在提升非眼科醫師的理解與溝通。研究結果顯示,85%的非眼科醫師偏好PLSs,且在診斷理解、筆記細節滿意度及解釋清晰度上均有顯著改善。PLSs也縮小了醫師間對眼科術語的理解差距。雖然PLSs的可讀性和意義保留良好,但審查中發現26%的錯誤率,需謹慎使用。總體而言,PLSs有助於增進非眼科醫師的理解與跨學科溝通。 PubMed DOI

研究發現,大型語言模型(LLM)生成的出院摘要,品質和醫師寫的差不多,受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚,但資訊沒那麼完整,錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核,LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

大型語言模型在醫療文件撰寫和決策輔助上很有潛力,但因準確性、驗證、偏見和隱私等問題,現階段還不適合完全自動化臨床應用。未來要安全有效導入,需加強研究、訂定明確規範,並維持人工監督。 PubMed DOI

這項研究發現,用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要,但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要,因此各機構還是要自行把關,確保摘要內容正確無誤。 PubMed DOI

這項研究發現,雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳,正確率達86.9%,但所有模型都會出現幻覺,甚至可能給出危險建議。即使用專業資料微調,推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作,還不適合獨立臨床應用,未來需加強可靠性與可解釋性。 PubMed DOI

大型語言模型雖然能協助知識型工作,但有時會產生錯誤資訊,對藥物安全來說風險很高。我們開發的防護機制能偵測問題資料、錯誤藥品或事件名稱,並表達不確定性。這些機制已整合進針對不良事件通報微調的模型中,有效降低關鍵錯誤,提升醫療安全與符合法規。 PubMed DOI