Comparative analysis of large language models in medical counseling: A focus on Helicobacter pylori infection.
醫療諮詢中大型語言模型的比較分析：聚焦於 Helicobacter pylori 感染。 Helicobacter 2024-07-30

這項研究評估了三種大型語言模型（LLMs）在幽門螺旋桿菌感染諮詢中的有效性，重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日，針對15個H. pylori相關問題進行評估。結果顯示，準確性得分為4.80，顯示良好，但完整性和可理解性得分較低，分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出，雖然LLMs在提供資訊上表現不錯，但在完整性和可靠性方面仍需改進，以提升其作為醫療諮詢工具的效能。 PubMed DOI

Large language models' responses to liver cancer surveillance, diagnosis, and management questions: accuracy, reliability, readability.
大型語言模型對於肝癌監測、診斷和管理問題的回應：準確性、可靠性、可讀性。 Abdom Radiol (NY) 2024-08-01

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題，並由六位專業醫師評估其準確性和可讀性。結果顯示，ChatGPT 準確回答 9 題（45%），Gemini 12 題（60%），Bing 6 題（30%）。但在準確性和可靠性方面，ChatGPT 只有 6 題（30%）同時符合，Gemini 8 題（40%），Bing 3 題（15%）。可讀性方面，ChatGPT 得分最低（29），顯示其可讀性差。研究指出，這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

Assessing ChatGPT as a Medical Consultation Assistant for Chronic Hepatitis B: Cross-Language Study of English and Chinese.
評估 ChatGPT 作為慢性乙型肝炎的醫療諮詢助手：英語和中文的跨語言研究。 JMIR Med Inform 2024-08-08

慢性乙型肝炎（CHB）在全球造成重大挑戰，尤其在中國等高盛行率地區。本研究探討AI助手ChatGPT-3.5在CHB管理中的潛力，特別是其提供個性化醫療諮詢的能力。研究發現，ChatGPT-4.0在資訊量和一致性上表現優於3.5，準確率達93.3%。然而，兩者在情感管理上表現不佳，需改進。研究建議針對情感管理進行專門訓練，並進一步探討免責聲明對病人經驗的影響。 PubMed DOI

[Efficiency of different large language models in China in response to consultations about PCa-related perioperative nursing and health education].
「中國不同大型語言模型在前列腺癌相關圍手術護理和健康教育諮詢中的效率」 Zhonghua Nan Ke Xue 2024-08-23

這項研究評估了四個國內語言模型—ERNIE Bot、ChatGLM2、Spark Desk 和 Qwen-14B-Chat—在提供根治性前列腺切除術（PCa）患者的圍手術護理和健康教育諮詢的效率。結果顯示，所有模型的回應品質都很高，且沒有誤導性資訊。Qwen-14B-Chat在各項評估中表現最佳，特別穩定；ChatGLM2在案例分析上也表現不錯。Spark Desk在可理解性上優秀，但全面性和人文關懷稍顯不足，而ERNIE Bot的表現最差。總體來看，Qwen-14B-Chat是提升PCa患者教育和遵從性的最佳工具。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Assessing the performance of large language models (LLMs) in answering medical questions regarding breast cancer in the Chinese context.
在中國背景下評估大型語言模型 (LLMs) 回答有關乳腺癌的醫學問題的表現。 Digit Health 2024-10-11

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現，特別針對中國的情境。分析了60個腫瘤科醫生提出的問題，結果顯示： - ChatGPT 提供了最多的全面回答，佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低，平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。總體來看，這些模型可作為乳腺癌資訊工具，但在專業治療問題上不可靠，應在醫療專業人員指導下使用。 PubMed DOI

Performance of Artificial Intelligence Chatbots on Ultrasound Examinations: Cross-Sectional Comparative Analysis.
人工智慧聊天機器人在超音波檢查中的表現：橫斷面比較分析。 JMIR Med Inform 2025-01-15

這項研究評估了兩款人工智慧聊天機器人，ChatGPT 和 ERNIE Bot，在回答超聲波醫學檢查問題上的表現。共整理了554個問題，涵蓋多種主題，並以中英文提出。結果顯示，ERNIE Bot 在客觀問題上表現優於 ChatGPT，特別是在英文方面。主觀問題的接受率介於47.62%到75.36%之間。整體來看，雖然聊天機器人能提供有用的資訊，但表現因模型、語言及問題類型而異，建議使用者選擇最合適的模型。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

The reliability of freely accessible, baseline, general-purpose large language model generated patient information for frequently asked questions on liver disease: a preliminary cross-sectional study.
自由可獲得的基線通用大型語言模型生成的肝病常見問題患者資訊的可靠性：一項初步橫斷面研究。 Expert Rev Gastroenterol Hepatol 2025-02-22

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5和Gemini，提供肝病病人資訊的有效性，並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示，LLM生成的回應與專家回應之間沒有顯著差異，兩組的平均分數都很高，顯示LLMs能提供可靠的肝病資訊。整體而言，研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

原始文章

站上相關主題文章列表