原始文章

這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。 PubMed DOI


站上相關主題文章列表

臨床NLG文本質量評估具挑戰性,研究建立人類評估框架,使用ChatGPT-3.5-turbo自動評估。結果顯示現有指標與人類判斷不一致,但基於UMLS的SapBERT表現最佳。整合領域知識至關重要,未來應專注於改進自動評估指標,特別是SapBERT分數。 PubMed DOI

LLMs在醫療領域有潛力,可提供臨床決策支持。評估這些代理在臨床模擬中的表現對於了解其影響至關重要,稱為AI-SCE。建立健全的評估框架將有助於LLMs成功應用於醫療環境。 PubMed DOI

醫療資源有限,醫患互動時間短。對話代理人(CAs)可回答病患問題。研究使用大型語言模型(LLMs)評估不同健康素養水平患者的CAs表現。評估包括自動化及半自動化程序。乳房X光攝影案例研究顯示LLMs可模擬不同患者問題,但回答準確性取決於素養水平。框架可擴展評估CA,並整合至臨床實踐。未來研究將專注於LLMs適應醫學資訊至用戶素養水平。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

研究目的是找出大型語言模型(LLMs)在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見,確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架,用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究針對醫療領域的大型語言模型(LLMs)開發了一個全面的評估框架,旨在評估其效能、安全性和倫理合規性。研究採用多準則決策方法(MCDM)及模糊加權零不一致性(FWZIC)來處理醫療決策中的不確定性,並使用多屬性理想-現實比較分析(MAIRCA)來評估不同的醫療LLMs。結果顯示,「醫療關係提取」的重要性略高於「臨床概念提取」,「GatorTron S 10B」表現最佳,而「GatorTron 90B」則最低。這項研究對醫療實務具有重要意義,能幫助專業人士做出明智的LLM採用決策。 PubMed DOI

這項研究強調人類評估在醫療大型語言模型(LLMs)中的重要性,回顧了各醫學專科的評估方法,特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示,現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題,作者提出了QUEST框架,包含規劃、實施與裁定、評分與審查三個階段,並圍繞五個關鍵評估原則,旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

病人安全事件(PSE)報告的分析對提升病人安全非常重要,但報告中的語言混雜,造成挑戰。本研究提出數據驅動的評估策略,檢視大型語言模型(LLMs)在分析PSE報告的適用性。研究發現,LLMs在七個事件類別中有六個類別的困惑度存在顯著差異。臨床模型對醫療專業人員撰寫的臨床敘述理解較好,而通用模型則在口語化語言和溝通主題上表現較佳。研究結論指出,LLMs需與文本特徵強烈對齊,單一模型可能無法最佳分析PSE報告。 PubMed DOI