Large language models: Are artificial intelligence-based chatbots a reliable source of patient information for spinal surgery?
大型語言模型：基於人工智慧的聊天機器人在脊椎手術方面是可靠的病人資訊來源嗎？ Eur Spine J 2023-10-11

大型語言模型（LLM）是強大的人工智慧工具，可促進類似人類的溝通並提供有價值的資訊。研究發現，ChatGPT在回答脊椎外科醫師有關急性腰椎間盤突出（LDH）問題時表現良好，清晰度高且特定。儘管未涵蓋所有知情同意書內容，但提供額外見解。然而，回答中有些許不準確。LLM如ChatGPT有助於患者教育，但需謹慎監控風險與機會。 PubMed DOI

Doctor Versus Artificial Intelligence: Patient and Physician Evaluation of Large Language Model Responses to Rheumatology Patient Questions in a Cross-Sectional Study.
醫生對抗人工智慧：患者和醫師評估大型語言模型回答風濕病學患者問題的交叉研究。 Arthritis Rheumatol 2024-02-29

研究比較了患者對風濕病問題的大型語言模型（LLM）聊天機器人和醫師回答的評價。結果顯示，患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同，患者更難分辨AI生成的答案。總結來說，患者對AI回答的看法與醫師相似，但風濕病專家則認為AI回答表現較差。 PubMed DOI

Performance of large language models on benign prostatic hyperplasia frequently asked questions.
大型語言模型在良性前列腺增生常見問題上的表現。 Prostate 2024-04-01

研究評估了LLMs在回答BPH問題的表現，結果顯示它們具有高準確性和可重複性，對提供BPH相關信息有價值，可幫助改善健康素養和支持患者。 PubMed DOI

Assessing artificial intelligence responses to common patient questions regarding inflatable penile prostheses using a publicly available natural language processing tool (ChatGPT).
使用公開可用的自然語言處理工具（ChatGPT）評估人工智慧對於有關可充氣陽具假體的常見病患問題的回答。 Can J Urol 2024-06-24

人工智慧聊天機器人如ChatGPT對醫療資訊分享有顯著影響，尤其在泌尿學領域，像IPP手術。研究發現，ChatGPT在回答IPP手術問題時，有70%的回答優秀，20%令人滿意，只需少量澄清，但也有10%需要大量澄清。總體而言，ChatGPT在提供基於證據的資訊給患者方面有潛力，但仍有改進的空間。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Using artificial intelligence to generate medical literature for urology patients: a comparison of three different large language models.
使用人工智慧生成泌尿科病患的醫學文獻：三種不同大型語言模型的比較。 World J Urol 2024-07-29

本研究評估了三個大型語言模型（LLMs）生成的泌尿科病人資訊小冊子（PILs）品質，包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術（TURP）進行評估。結果顯示，PaLM 2的PILs品質最佳，平均得分3.58，且最易閱讀。雖然LLMs能減輕醫療人員負擔，但內容仍需臨床醫師審查，且閱讀水平偏高，顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases.
使用 ChatGPT3.5 和 GPT4 進行提示工程，以改善對視網膜疾病的患者教育。 Can J Ophthalmol 2024-09-08

這項研究探討不同提示工程技術對大型語言模型（如ChatGPT3.5和GPT4）在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題，並在獨立問題、優化提示（提示A）及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性，結果顯示兩個模型在各指標上無顯著差異，但提示B的可讀性較高，卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2024-09-19

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，但風險因素的回答最不準確。整體可讀性被評為「相當困難」，平均得分為50.94。此外，70%-100%的回答都包含健康建議的免責聲明。研究建議，雖然LLM聊天機器人對病人教育有幫助，但準確性和可靠性可能因主題而異，影響病人理解。 PubMed DOI

原始文章

站上相關主題文章列表