Large language models' responses to liver cancer surveillance, diagnosis, and management questions: accuracy, reliability, readability.
大型語言模型對於肝癌監測、診斷和管理問題的回應：準確性、可靠性、可讀性。 Abdom Radiol (NY) 2024-08-01

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題，並由六位專業醫師評估其準確性和可讀性。結果顯示，ChatGPT 準確回答 9 題（45%），Gemini 12 題（60%），Bing 6 題（30%）。但在準確性和可靠性方面，ChatGPT 只有 6 題（30%）同時符合，Gemini 8 題（40%），Bing 3 題（15%）。可讀性方面，ChatGPT 得分最低（29），顯示其可讀性差。研究指出，這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

Assessing ChatGPT as a Medical Consultation Assistant for Chronic Hepatitis B: Cross-Language Study of English and Chinese.
評估 ChatGPT 作為慢性乙型肝炎的醫療諮詢助手：英語和中文的跨語言研究。 JMIR Med Inform 2024-08-08

慢性乙型肝炎（CHB）在全球造成重大挑戰，尤其在中國等高盛行率地區。本研究探討AI助手ChatGPT-3.5在CHB管理中的潛力，特別是其提供個性化醫療諮詢的能力。研究發現，ChatGPT-4.0在資訊量和一致性上表現優於3.5，準確率達93.3%。然而，兩者在情感管理上表現不佳，需改進。研究建議針對情感管理進行專門訓練，並進一步探討免責聲明對病人經驗的影響。 PubMed DOI

Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Assessing the performance of large language models (LLMs) in answering medical questions regarding breast cancer in the Chinese context.
在中國背景下評估大型語言模型 (LLMs) 回答有關乳腺癌的醫學問題的表現。 Digit Health 2024-10-11

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現，特別針對中國的情境。分析了60個腫瘤科醫生提出的問題，結果顯示： - ChatGPT 提供了最多的全面回答，佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低，平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。總體來看，這些模型可作為乳腺癌資訊工具，但在專業治療問題上不可靠，應在醫療專業人員指導下使用。 PubMed DOI

Comparison of the performances between ChatGPT and Gemini in answering questions on viral hepatitis.
ChatGPT 與 Gemini 在回答病毒性肝炎問題上的表現比較。 Sci Rep 2025-01-11

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題，結果顯示兩者的平均分數相近（3.55對3.57），且正確回答比例也相似（71.0%對78.4%）。在CDC問題上，兩者的正確率都很高，但在國際指導方針問題上則表現不佳。整體而言，雖然在CDC和社交媒體問題上表現良好，但在指導方針的準確性上仍有待加強。 PubMed DOI

Evaluating the Accuracy of Responses by Large Language Models for Information on Disease Epidemiology.
評估大型語言模型對疾病流行病學資訊回應的準確性。 Pharmacoepidemiol Drug Saf 2025-02-04

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5、ChatGPT-4和Google Bard，在提供疾病流行病學數據的準確性。研究設計了21個問題，並將其提交給每個模型兩次。結果顯示，ChatGPT-4的準確率最高，達76.2%，其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳，但三者皆存在不準確性和參考文獻問題，限制了它們在醫藥和學術界的實用性。 PubMed DOI

Evaluating large language models as patient education tools for inflammatory bowel disease: A comparative study.
評估大型語言模型作為炎症性腸病患者教育工具的效果：一項比較研究。 World J Gastroenterol 2025-02-17

炎症性腸病（IBD）影響全球數百萬人，因此有效的病人教育非常重要。大型語言模型（LLMs）如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊，但其準確性尚未廣泛研究。研究中，腸胃科專家設計了15個IBD問題，評估這三個模型的表現。結果顯示，這些模型在基本資訊上表現良好，但在複雜主題如藥物副作用和飲食改變時，表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力，但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

The reliability of freely accessible, baseline, general-purpose large language model generated patient information for frequently asked questions on liver disease: a preliminary cross-sectional study.
自由可獲得的基線通用大型語言模型生成的肝病常見問題患者資訊的可靠性：一項初步橫斷面研究。 Expert Rev Gastroenterol Hepatol 2025-02-22

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5和Gemini，提供肝病病人資訊的有效性，並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示，LLM生成的回應與專家回應之間沒有顯著差異，兩組的平均分數都很高，顯示LLMs能提供可靠的肝病資訊。整體而言，研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表