原始文章

這項研究針對醫療領域的大型語言模型(LLMs)開發了一個全面的評估框架,旨在評估其效能、安全性和倫理合規性。研究採用多準則決策方法(MCDM)及模糊加權零不一致性(FWZIC)來處理醫療決策中的不確定性,並使用多屬性理想-現實比較分析(MAIRCA)來評估不同的醫療LLMs。結果顯示,「醫療關係提取」的重要性略高於「臨床概念提取」,「GatorTron S 10B」表現最佳,而「GatorTron 90B」則最低。這項研究對醫療實務具有重要意義,能幫助專業人士做出明智的LLM採用決策。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)有潛力改變醫學,提升診斷和臨床決策。成功整合需要應對醫學領域的挑戰,包括遷移學習、微調、強化學習、跨學科合作、教育、評估、倫理、隱私和法規。透過全面方法和跨學科合作,LLMs能負責任地融入醫療實踐,造福患者並改善健康結果。 PubMed DOI

大型語言模型(LLMs)是訓練在大量文本資料上的先進人工智慧模型,目的是模擬人類的表現。在醫療保健領域中,LLMs的應用越來越廣泛,用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs,包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

LLMs在醫療領域有潛力,可提供臨床決策支持。評估這些代理在臨床模擬中的表現對於了解其影響至關重要,稱為AI-SCE。建立健全的評估框架將有助於LLMs成功應用於醫療環境。 PubMed DOI

醫療資源有限,醫患互動時間短。對話代理人(CAs)可回答病患問題。研究使用大型語言模型(LLMs)評估不同健康素養水平患者的CAs表現。評估包括自動化及半自動化程序。乳房X光攝影案例研究顯示LLMs可模擬不同患者問題,但回答準確性取決於素養水平。框架可擴展評估CA,並整合至臨床實踐。未來研究將專注於LLMs適應醫學資訊至用戶素養水平。 PubMed DOI

人工智慧,尤其是大型語言模型(LLMs),對急診護理工作流程和決策有改善作用。目前對LLMs在急診醫學的研究意見不一,需要一個全面的框架來了解其應用。這篇文章探討了LLMs在急診醫學的現況,並提出未來研究方向。經分析43篇論文,發現LLMs可強化臨床決策、提升效率、引起道德關注,並促進醫學教育。LLMs有潛力改變急診護理,但仍需進一步研究驗證其應用、建立負責任使用標準、解決道德問題,並提升醫護人員對人工智慧的認識。合作努力是安全有效整合LLMs於急診醫學中的關鍵。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

研究目的是找出大型語言模型(LLMs)在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見,確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架,用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI