The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Large Language Models for Chatbot Health Advice Studies: A Systematic Review.
大型語言模型在聊天機器人健康建議研究中的應用：系統性回顧。 JAMA Netw Open 2025-02-04

這項系統性回顧分析了137篇經過同行評審的研究，探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示，研究報告標準差異大，主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防，但幾乎全數（99.3%）使用的都是無法訪問的封閉源碼大型語言模型，且對其特徵描述不足。此外，多數研究未提及提示工程，只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準，建議開發聊天機器人評估報告工具（CHART），以提升臨床評估與整合的效果。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

Evaluating Accuracy and Readability of Responses to Midlife Health Questions: A Comparative Analysis of Six Large Language Model Chatbots.
六種大型語言模型聊天機器人對中年健康問題回答之準確性與可讀性評估：比較分析 J Midlife Health 2025-05-07

研究比較六款聊天機器人回答中年健康問題的表現，發現 Meta AI 答案最準確、最有條理，Perplexity 最容易閱讀。整體來說，這些聊天機器人對中年健康教育有幫助，但表現有差異，選擇合適的工具很重要。 PubMed DOI

Evaluation of artificial intelligence (AI) chatbots for providing sexual health information: a consensus study using real-world clinical queries.
人工智慧（AI）聊天機器人在提供性健康資訊方面的評估：一項基於真實臨床提問的共識研究 BMC Public Health 2025-05-15

這項研究發現，經過提示優化的AI聊天機器人（像Alice）在提供正確、準確和安全的健康資訊上，比標準版ChatGPT表現更好。不過，所有AI偶爾還是會出錯，所以只能當作輔助工具，不能取代醫療專業人員。未來若要廣泛應用，還需要持續改進並由人員監督。 PubMed DOI

A Comparison of Responses from Human Therapists and Large Language Model-Based Chatbots to Assess Therapeutic Communication: Mixed Methods Study.
以混合方法研究比較人類治療師與大型語言模型聊天機器人在治療性溝通上的回應 JMIR Ment Health 2025-05-21

這項研究發現，聊天機器人雖然能提供基本的情感支持和心理教育，但回應較制式，無法深入探討或安全處理危機。相較之下，治療師會引導來談者多說明，介入方式也更細緻。結論是，目前聊天機器人還不能取代專業心理健康照護，尤其遇到危機時更要小心使用。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

原始文章

站上相關主題文章列表