原始文章

這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。 PubMed DOI


站上相關主題文章列表

LLMs在醫療領域有潛力,可提供臨床決策支持。評估這些代理在臨床模擬中的表現對於了解其影響至關重要,稱為AI-SCE。建立健全的評估框架將有助於LLMs成功應用於醫療環境。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究強調人類評估在醫療大型語言模型(LLMs)中的重要性,回顧了各醫學專科的評估方法,特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示,現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題,作者提出了QUEST框架,包含規劃、實施與裁定、評分與審查三個階段,並圍繞五個關鍵評估原則,旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域的評估,指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章,資料來自PubMed、Embase和MEDLINE。結果顯示,LLM的評估主要分為測試考試和醫療專業人員的評估,部分研究則結合兩者。大多數評估問題數量不超過100題,且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論,以提升LLM在醫療應用中的表現。 PubMed DOI

這項研究探討大型語言模型(LLM)生成的急診醫學交接筆記,針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行,分析了1,600份病人紀錄。結果顯示,LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記,但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時,醫生參與的重要性,並提供了評估病人安全的框架。 PubMed DOI

將大型語言模型(LLMs)應用於臨床診斷,能提升醫生與病患的互動,但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架(CRAFT-MD),透過自然對話來評估臨床LLMs的表現。研究發現,像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集,以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,但目前的評估方法主要依賴人類的主觀評價,這不僅耗時,還容易受到偏見影響。為了解決這個問題,我們提出了一個結合定性與定量評估的統一框架,能夠更客觀地評估LLMs的表現。我們應用此框架於Epic In-Basket功能的評估,發現AI生成的回覆雖然流暢,但在連貫性和完整性上仍有不足。這顯示出量化指標能有效減少人力投入,提升評估的可擴展性。總之,我們的框架有助於提升LLMs在醫療領域的評估可靠性。 PubMed DOI