Evaluating large language models on medical evidence summarization.
評估大型語言模型在醫學證據摘要上的表現。 NPJ Digit Med 2024-04-02

LLMs（如GPT-3.5和ChatGPT）在各種任務上表現逐漸提升，包括醫學證據摘要。然而，自動評量不一定準確，人類評估發現LLMs有時會產生不準確或誤導性的摘要，尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

Large Language Models in Medicine: The Potentials and Pitfalls : A Narrative Review.
醫學中的大型語言模型：潛力與陷阱：敘事性評論。 Ann Intern Med 2024-02-21

大型語言模型（LLMs）是訓練在大量文本資料上的先進人工智慧模型，目的是模擬人類的表現。在醫療保健領域中，LLMs的應用越來越廣泛，用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs，包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

The Breakthrough of Large Language Models Release for Medical Applications: 1-Year Timeline and Perspectives.
大型語言模型在醫學應用中的突破：1年時間軸和展望。 J Med Syst 2024-02-19

NLP中的LLMs是強大模型，能夠理解和生成人類文本。在醫療領域，可應用在聊天機器人、臨床文件和文獻。挑戰在於診斷輔助和患者分流。2023年將釋出針對醫療的LLMs，主要用於聊天機器人。跟進技術發展具有挑戰性，了解應用和限制是討論焦點。本文總結LLMs在醫學上的潛力，探討安全有效的應用。未來可能應用於決策的AI模型和虛擬臨床夥伴。 PubMed DOI

Using large language models for safety-related table summarization in clinical study reports.
使用大型語言模型進行臨床研究報告中與安全相關的表格摘要。 JAMIA Open 2024-05-31

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件，尤其是為CSRs創建安全表摘要。評估顯示性能差異，特別是在事實準確性和寫作風格方面。團隊多使用GPT模型，改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力，強調需優化人類輸入和持續研究。 PubMed DOI

Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

A framework for human evaluation of large language models in healthcare derived from literature review.
從文獻回顧中衍生的醫療領域大型語言模型人類評估框架。 NPJ Digit Med 2024-09-27

這項研究強調人類評估在醫療大型語言模型（LLMs）中的重要性，回顧了各醫學專科的評估方法，特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示，現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題，作者提出了QUEST框架，包含規劃、實施與裁定、評分與審查三個階段，並圍繞五個關鍵評估原則，旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

Analyzing evaluation methods for large language models in the medical field: a scoping review.
分析醫療領域大型語言模型評估方法：範疇回顧。 BMC Med Inform Decis Mak 2024-11-29

這項研究回顧了大型語言模型（LLMs）在醫療領域的評估，指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章，資料來自PubMed、Embase和MEDLINE。結果顯示，LLM的評估主要分為測試考試和醫療專業人員的評估，部分研究則結合兩者。大多數評估問題數量不超過100題，且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論，以提升LLM在醫療應用中的表現。 PubMed DOI

Evaluating LLMs for Diagnosis Summarization.
評估大型語言模型在診斷摘要中的應用。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

這篇論文探討了六種大型語言模型（LLMs）在自動化出院摘要方面的有效性，並提出了一種新的自動評估指標，與人類評估結果相符。研究使用F1-Score來評估模型表現，並與醫療專業人員的評估進行比較。結果顯示，雖然LLMs有潛力，但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。 Healthcare (Basel) 2025-03-28

大型語言模型（LLMs）在醫療保健中展現出顯著潛力，能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示，LLMs可作為虛擬病人和個性化導師，並在醫學知識評估中超越初級實習生。在臨床決策中，它們協助診斷和治療建議，但效果因專科而異。此外，LLMs能自動化臨床筆記和報告生成，減輕醫療人員的負擔。然而，仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎，並強調倫理與合作。 PubMed DOI

原始文章

站上相關主題文章列表