Evaluating Large Language Models on Medical Evidence Summarization.
評估大型語言模型在醫學證據摘要上的表現。 medRxiv 2023-09-04

LLMs在醫學領域的應用有潛力，但研究指出它們在生成摘要時可能不夠準確，容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠，人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此，在醫療保健領域中，我們應謹慎使用LLMs，不可全然依賴其能力。 PubMed DOI

Embracing Large Language Models for Medical Applications: Opportunities and Challenges.
運用大型語言模型於醫學應用：機會與挑戰。 Cureus 2023-07-01

大型語言模型（LLMs）有潛力改變醫學，提升診斷和臨床決策。成功整合需要應對醫學領域的挑戰，包括遷移學習、微調、強化學習、跨學科合作、教育、評估、倫理、隱私和法規。透過全面方法和跨學科合作，LLMs能負責任地融入醫療實踐，造福患者並改善健康結果。 PubMed DOI

Large language models encode clinical knowledge.
大型語言模型編碼臨床知識。 Nature 2024-02-29

LLMs在臨床上有潛力，但評估臨床知識有挑戰。MultiMedQA整合了六個醫學問答數據集，並引入人工評估框架。Flan-PaLM在醫學數據集上表現優異，但人工評估發現了一些缺陷。Med-PaLM透過指令提示調整後有所改善，但仍需更多努力。LLMs在醫學領域有潛力，但需要進一步發展以建立安全有效的臨床模型。 PubMed DOI

Evaluating large language models on medical evidence summarization.
評估大型語言模型在醫學證據摘要上的表現。 NPJ Digit Med 2024-04-02

LLMs（如GPT-3.5和ChatGPT）在各種任務上表現逐漸提升，包括醫學證據摘要。然而，自動評量不一定準確，人類評估發現LLMs有時會產生不準確或誤導性的摘要，尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

The Breakthrough of Large Language Models Release for Medical Applications: 1-Year Timeline and Perspectives.
大型語言模型在醫學應用中的突破：1年時間軸和展望。 J Med Syst 2024-02-19

NLP中的LLMs是強大模型，能夠理解和生成人類文本。在醫療領域，可應用在聊天機器人、臨床文件和文獻。挑戰在於診斷輔助和患者分流。2023年將釋出針對醫療的LLMs，主要用於聊天機器人。跟進技術發展具有挑戰性，了解應用和限制是討論焦點。本文總結LLMs在醫學上的潛力，探討安全有效的應用。未來可能應用於決策的AI模型和虛擬臨床夥伴。 PubMed DOI

A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。 Comput Biol Med 2024-03-21

這篇論文評估了大型語言模型（LLMs）在各種生物醫學任務上的表現，發現即使在較小的生物醫學數據集上沒有進行特定微調，LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀，但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

Can large language models reason about medical questions?
大型語言模型能否推理醫學問題？ Patterns (N Y) 2024-03-16

研究發現大型語言模型（如GPT-3.5和Llama 2）在處理複雜醫學問題時表現出色。透過提示和專家註釋，它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術，在醫學基準測試中表現優異。Llama 2也有競爭力，其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Closing the gap between open source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 NPJ Digit Med 2024-09-09

這項研究探討了微調開源大型語言模型（LLMs）在醫學證據總結方面的潛力，與專有模型相比，開源模型雖然表現較弱，但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調，結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現，且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

Large Language Models in Biomedical and Health Informatics: A Review with Bibliometric Analysis.
生物醫學與健康資訊學中的大型語言模型：文獻計量分析的回顧。 J Healthc Inform Res 2024-10-28

這項研究全面探討大型語言模型（LLMs）在生物醫學與健康資訊學（BHI）的應用，強調其變革潛力及面臨的倫理與實際挑戰。透過分析1,698篇研究，發現LLMs在臨床決策支持、病患互動及醫療文件分析等領域的應用顯著增加，預期能提升診斷準確性。研究也揭示機構間的合作動態，特別是在心理健康和神經系統疾病的管理上，顯示出個人化醫療的潛力。儘管LLMs展現出巨大潛力，仍需重視倫理影響及模型驗證挑戰，以確保其在臨床上的有效性。 PubMed DOI

原始文章

站上相關主題文章列表