Beyond ChatGPT: It Is Time to Focus More on Specialized Medical LLMs.
超越 ChatGPT：是時候更專注於專業醫學 LLMs。 J Endourol 2024-06-04

ChatGPT 在許多地方很受歡迎，但對醫學專業人士可能不適用，因為它主要依賴預測語言模式，而非直接查找事實，可能導致不準確。建議使用在權威醫學數據庫上訓練、由人類驗證的專業醫學大型語言模型（LLMs），以確保資訊的正確性和完整性。專業醫學LLMs 能提供更準確和相關的醫學建議，改善患者護理和醫學教育，協助人工智慧在醫療領域充分發揮潛力。 PubMed DOI

Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

Currently Available Large Language Models Do Not Provide Musculoskeletal Treatment Recommendations That are Concordant With Evidence-Based Clinical Practice Guidelines.
目前可用的大型語言模型未能提供與循證臨床實踐指導一致的肌肉骨骼治療建議。 Arthroscopy 2024-08-22

這項研究評估了幾個商業可用的大型語言模型（LLMs）在提供治療建議時，與美國骨科醫學會（AAOS）針對肩袖撕裂和前交叉韌帶（ACL）損傷的臨床指導方針（CPGs）的符合度。分析了48項CPGs，結果顯示70.3%的回應與指導方針一致，ChatGPT-4的符合率最高（79.2%），而Mistral-7B最低（58.3%）。研究指出，雖然LLMs能提供一致建議，但缺乏透明的資料來源，限制了其作為臨床支持工具的可靠性，未來應擴大評估範圍以減少偏見。 PubMed DOI

Generative Large Language Models in Electronic Health Records for Patient Care Since 2023: A Systematic Review.
2023年以來生成大型語言模型在電子健康紀錄中的病患照護：系統性回顧。 medRxiv 2024-09-04

這項研究系統性回顧了生成性大型語言模型（LLMs）在臨床環境，特別是電子健康紀錄（EHRs）的應用。儘管自然語言處理技術進步，LLMs在臨床實踐中的整合仍有限，面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻，發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性，以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估，以提升LLMs在醫療中的可靠性。總之，LLMs在病人護理上有潛力，但仍需克服重大障礙。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Custom Large Language Models Improve Accuracy: Comparing Retrieval Augmented Generation and Artificial Intelligence Agents to Non-Custom Models for Evidence-Based Medicine.
自訂大型語言模型提升準確性：比較檢索增強生成和人工智慧代理與非自訂模型在循證醫學中的表現。 Arthroscopy 2024-11-09

這項研究探討了基於檢索增強生成（RAG）的大型語言模型（LLMs）在提供前交叉韌帶（ACL）損傷資訊的準確性。研究人員編輯了100個問題和答案，並測試了不同模型的表現。結果顯示，未整合RAG的模型準確率低於60%，但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率，而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性，對醫學領域的LLMs應用提供了支持。 PubMed DOI

Large Language Models Applied to Healthcare Tasks May Improve Clinical Efficiency, Value of Care Rendered, Research, and Medical Education.
大型語言模型應用於醫療任務可能改善臨床效率、提供的護理價值、研究及醫學教育。 Arthroscopy 2024-12-18

大型語言模型（LLMs）是先進的人工智慧系統，能生成多種內容，應用於醫療保健的病人護理、工作流程、溝通等領域。它們能簡化文檔、改善病人溝通及協助診斷。然而，使用 LLMs 也帶來風險，如錯誤可能影響病人結果，特別是偏見和倫理問題。為了應對這些挑戰，針對特定任務設計的定制 LLMs，透過精心策劃的訓練數據來減少偏見，並採用提示工程、檢索增強生成等方法提升效能。 PubMed DOI

[Can large language models answer clinical questions?].
大型語言模型能否回答臨床問題？ Recenti Prog Med 2025-03-14

大型語言模型（LLMs）如ChatGPT在醫學領域的應用潛力巨大，但也帶來了準確性和可靠性的挑戰。研究顯示，LLMs能提供正確的疾病管理資訊，但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性，以及臨床使用的驗證。總之，雖然LLMs能提升醫學教育和決策，但仍需謹慎評估，以確保其在臨床中的安全與有效性。 PubMed DOI

A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。 Healthcare (Basel) 2025-03-28

大型語言模型（LLMs）在醫療保健中展現出顯著潛力，能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示，LLMs可作為虛擬病人和個性化導師，並在醫學知識評估中超越初級實習生。在臨床決策中，它們協助診斷和治療建議，但效果因專科而異。此外，LLMs能自動化臨床筆記和報告生成，減輕醫療人員的負擔。然而，仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎，並強調倫理與合作。 PubMed DOI

Large Language Model Use Cases in Healthcare Research are Redundant and Often Lack Appropriate Methodological Conduct: A Scoping Review and Call for Improved Practices.
醫療研究中大型語言模型的使用案例冗餘且常缺乏適當的方法論執行：範疇回顧與改進實踐的呼籲。 Arthroscopy 2025-04-10

本研究探討大型語言模型（LLMs）在肌肉骨骼醫學的應用，並評估相關研究的質量。透過系統文獻回顧，分析了2022至2024年間的114項研究，主要集中在病人問題回答、診斷管理、骨科檢查等五大領域。大部分研究使用ChatGPT 3.5，方法學上存在透明度不足的問題。研究指出，雖然LLMs在醫療上有潛力，但目前的研究仍需改進，並強調建立指導方針以促進有效應用。 PubMed DOI

原始文章

站上相關主題文章列表