Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Integrating human expertise & automated methods for a dynamic and multi-parametric evaluation of large language models' feasibility in clinical decision-making.
將人類專業知識與自動化方法整合，以動態和多參數評估大型語言模型在臨床決策中的可行性。 Int J Med Inform 2024-05-29

近期LLMs如ChatGPT在醫療保健領域受歡迎，但也帶來安全和倫理風險。為因應此挑戰，提出新方法評估LLMs在臨床護理中的可行性，強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧，確定關鍵評估領域。由專家進行同行評審，確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後，有些被推薦使用，有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

Effects of interacting with a large language model compared with a human coach on the clinical diagnostic process and outcomes among fourth-year medical students: study protocol for a prospective, randomised experiment using patient vignettes.
與大型語言模型互動與人類教練互動對四年級醫學生臨床診斷過程及結果的影響：使用病人案例的前瞻性隨機實驗研究計劃。 BMJ Open 2024-07-18

這項研究探討醫學生在與大型語言模型（如ChatGPT）和人類教練互動時，對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生，他們被分配到不同的互動方式，並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素，並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准，預期結果將為人工智慧在醫學診斷中的應用提供重要見解，並將發表於同行評審期刊。 PubMed DOI

Generative artificial intelligence in primary care: an online survey of UK general practitioners.
初級醫療中的生成式人工智慧：對英國全科醫生的在線調查。 BMJ Health Care Inform 2024-09-17

2022年11月推出的ChatGPT引起了對大型語言模型在臨床環境中應用的關注。最近一項針對英國全科醫生的調查顯示，20%的醫生已在臨床實踐中使用生成式人工智慧工具。使用者中，29%用於生成就診後文檔，28%用於建議鑑別診斷。儘管醫生認為這些工具在行政和臨床推理上有價值，但缺乏明確的指導和政策，醫療界面臨著教育專業人員和患者的挑戰。 PubMed DOI

Evaluation of ChatGPT as a Reliable Source of Medical Information on Prostate Cancer for Patients: Global Comparative Survey of Medical Oncologists and Urologists.
評估 ChatGPT 作為前列腺癌患者可靠醫療資訊來源的能力：全球醫療腫瘤科醫師與泌尿科醫師的比較調查。 Urol Pract 2024-11-07

這項研究評估了ChatGPT在生成前列腺癌相關醫療回應的表現。研究期間為2023年4月至6月，超過700名醫療腫瘤科和泌尿科醫師參與，且他們不知是在評估AI。結果顯示，602名受訪者在9個問題中有7個偏好AI生成的回應，但仍認為醫療網站更可信。98名受訪者對AI生成的複雜問題回應給予高評價，顯示臨床醫師欣賞AI的清晰度，但仍偏好傳統網站作為資訊來源。這提供了對臨床醫師評估AI內容的見解，並為未來的AI驗證研究提出了評估標準。 PubMed DOI

Evaluating Artificial Intelligence-Driven Responses to Acute Liver Failure Queries: A Comparative Analysis Across Accuracy, Clarity, and Relevance.
評估人工智慧驅動的急性肝衰竭問題回應：準確性、清晰度和相關性的比較分析。 Am J Gastroenterol 2024-12-17

最近的研究顯示，透過大型語言模型（LLMs）在急性肝衰竭（ALF）問題上的表現，特別是使用增強檢索生成（RAG）技術的ChatGPT 4，顯示出顯著的優勢。研究中評估了五個模型，結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳，得分分別為4.70、4.89和4.78。相比之下，其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力，但也指出其需持續進化以符合實際需求。 PubMed DOI

Strategies for integrating ChatGPT and generative AI into clinical studies.
將 ChatGPT 和生成式 AI 整合進臨床研究的策略。 Blood Res 2024-12-24

大型語言模型如ChatGPT正在改變臨床研究，提升內容創作及數據分析的能力。不過，將這些工具融入學術寫作仍面臨挑戰。本文探討在臨床研究中使用AI的實用策略，並考量倫理問題。強調安全有效使用生成式AI的例子，並指出確保AI結果在學術上可靠的重要性。雖然AI能簡化重複性任務，但無法取代作者的批判性分析。仔細審查AI生成的文本，確保與作者見解一致，並解決抄襲檢測及倫理使用的挑戰。 PubMed DOI

Large Language Models for Chatbot Health Advice Studies: A Systematic Review.
大型語言模型在聊天機器人健康建議研究中的應用：系統性回顧。 JAMA Netw Open 2025-02-04

這項系統性回顧分析了137篇經過同行評審的研究，探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示，研究報告標準差異大，主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防，但幾乎全數（99.3%）使用的都是無法訪問的封閉源碼大型語言模型，且對其特徵描述不足。此外，多數研究未提及提示工程，只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準，建議開發聊天機器人評估報告工具（CHART），以提升臨床評估與整合的效果。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

原始文章

站上相關主題文章列表