Performance of large language models on benign prostatic hyperplasia frequently asked questions.
大型語言模型在良性前列腺增生常見問題上的表現。 Prostate 2024-04-01

研究評估了LLMs在回答BPH問題的表現，結果顯示它們具有高準確性和可重複性，對提供BPH相關信息有價值，可幫助改善健康素養和支持患者。 PubMed DOI

Physician Versus Large Language Model Chatbot Responses to Web-Based Questions From Autistic Patients in Chinese: Cross-Sectional Comparative Analysis.
醫師與大型語言模型聊天機器人對自閉症患者網絡問題的中文回應：橫斷面比較分析。 J Med Internet Res 2024-04-30

研究評估大型語言模型對自閉症患者回應的效果，發現醫師回應更準確實用，而LLMs在同理心表現較佳。在將LLMs應用到臨床前，還需進一步研究和改進。 PubMed DOI

Amplifying Chinese physicians' emphasis on patients' psychological states beyond urologic diagnoses with ChatGPT-A multi-center cross-sectional study.
透過 ChatGPT 進行多中心橫斷面研究，強調中國醫師在泌尿學診斷之外對患者心理狀態的重視。 Int J Surg 2024-07-02

研究發現ChatGPT 4.0在泌尿科問題回答和心理支持方面表現優異，比3.5更好，可助醫師決策並支持患者。人工智慧如ChatGPT 4.0對臨床決策和患者支持有潛力。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Comparative analysis of large language models in medical counseling: A focus on Helicobacter pylori infection.
醫療諮詢中大型語言模型的比較分析：聚焦於 Helicobacter pylori 感染。 Helicobacter 2024-07-30

這項研究評估了三種大型語言模型（LLMs）在幽門螺旋桿菌感染諮詢中的有效性，重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日，針對15個H. pylori相關問題進行評估。結果顯示，準確性得分為4.80，顯示良好，但完整性和可理解性得分較低，分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出，雖然LLMs在提供資訊上表現不錯，但在完整性和可靠性方面仍需改進，以提升其作為醫療諮詢工具的效能。 PubMed DOI

Benchmarking four large language models' performance of addressing Chinese patients' inquiries about dry eye disease: A two-phase study.
評估四個大型語言模型在解答中國患者對乾眼症詢問的表現：一項兩階段研究。 Heliyon 2024-08-08

這項研究評估了四個大型語言模型（LLMs）在生成中國患者對乾眼症問題的回應表現。研究分為兩個階段，第一階段由六位眼科醫生根據正確性、完整性、可讀性、有用性和安全性對回應進行評分。結果顯示，GPT-4在各方面表現最佳，但可讀性較低。第二階段中，46位患者向GPT-4和Baichuan 2提問，發現GPT-4的完整性較高，但Baichuan 2的回應更易理解。整體而言，這些模型在提供乾眼症相關資訊上展現了潛力，對中國患者意義重大。 PubMed DOI

The Potential Impact of Large Language Models on Doctor-Patient Communication: A Case Study in Prostate Cancer.
大型語言模型對醫生與病人溝通的潛在影響：前列腺癌的案例研究。 Healthcare (Basel) 2024-08-09

近年來，大型語言模型（LLMs）已被應用於醫療領域，特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果，包括ChatGPT（3.5）、Gemini（Pro）和Co-Pilot（免費版），並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測，八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示，LLM，尤其是ChatGPT，通常提供比指南更準確且友好的資訊，顯示出其在改善醫療溝通上的潛力。不過，不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

Evaluating the Efficacy of ChatGPT as a Patient Education Tool in Prostate Cancer: Multimetric Assessment.
評估 ChatGPT 作為前列腺癌患者教育工具的有效性：多指標評估。 J Med Internet Res 2024-08-14

這項研究評估了ChatGPT-4對前列腺癌常見問題的回答質量。研究人員制定了八個問題，並由四位評審使用多種工具評估AI的回答。結果顯示，ChatGPT-4的可理解性得分很高，但可讀性卻顯示「難以閱讀」，平均達到11年級的水平。雖然大部分參考文獻都來自可信來源，但仍有兩個例子被識別為參考幻覺。總體來看，ChatGPT-4在患者教育中提供了一般可靠的回答，但在可讀性和準確性上仍需改進。 PubMed DOI

Comprehensiveness of Large Language Models in Patient Queries on Gingival and Endodontic Health.
大型語言模型在牙齦和根管健康患者詢問中的全面性。 Int Dent J 2024-08-15

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-3.5 和 ChatGPT-4，對牙齦和根管健康問題的回答效果。共提出33個問題，包含17個常識性和16個專家級問題，並以中英文呈現。三位專家對回答進行五分制評分。結果顯示，兩者在英文表現較佳，ChatGPT-4的平均得分為4.45，優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性，並指出需進一步評估LLMs以解決其在不同語言環境中的局限性，避免口腔健康資訊誤解。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

原始文章

站上相關主題文章列表