The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Evaluation of four chatbots in autoimmune liver disease: A comparative analysis.
自體免疫肝病中四個聊天機器人的評估：比較分析。 Ann Hepatol 2024-08-15

自體免疫性肝病（AILDs）較為罕見，醫療提供者需仔細評估。研究探討了四款聊天機器人（ChatGPT 3.5、Claude、Microsoft Copilot 和 Google Bard）在臨床決策支持中的潛力。十位肝臟專家針對56個問題進行評估，結果顯示Claude得分最高（7.37），ChatGPT次之（7.17）。研究發現這些機器人常提供一般性資訊、劑量資訊不足，且對孕婦的建議不準確。雖然聊天機器人有潛力，但仍需改善資訊的具體性與準確性，以提升其在自體免疫性肝病管理中的有效性。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Reliability and quality of information provided by artificial intelligence chatbots on post-contrast acute kidney injury: an evaluation of diagnostic, preventive, and treatment guidance.
人工智慧聊天機器人在對比劑後急性腎損傷資訊提供的可靠性與品質：診斷、預防及治療指導的評估。 Rev Assoc Med Bras (1992) 2024-12-04

這項研究評估了AI聊天機器人提供的對比劑相關急性腎損傷（CAAKI）資訊的可靠性。研究人員向ChatGPT、Gemini、Copilot和Perplexity四個聊天機器人詢問常見問題，結果顯示Perplexity的資訊評價為「良好」，其他則為「一般」。所有回應的可讀性都很複雜，需要大學程度才能理解，且可理解性和適用性評分都偏低。雖然在李克特量表上獲得良好評價，但研究指出AI提供的CAAKI資訊仍可能不夠易懂。 PubMed DOI

Comparison of the performances between ChatGPT and Gemini in answering questions on viral hepatitis.
ChatGPT 與 Gemini 在回答病毒性肝炎問題上的表現比較。 Sci Rep 2025-01-11

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題，結果顯示兩者的平均分數相近（3.55對3.57），且正確回答比例也相似（71.0%對78.4%）。在CDC問題上，兩者的正確率都很高，但在國際指導方針問題上則表現不佳。整體而言，雖然在CDC和社交媒體問題上表現良好，但在指導方針的準確性上仍有待加強。 PubMed DOI

Evaluating AI Chatbot Responses to Postkidney Transplant Inquiries.
評估 AI 聊天機器人對腎臟移植後詢問的回應。 Transplant Proc 2025-01-15

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量，並透過病人教育材料評估工具（PEMAT）檢視可理解性和可行性。結果顯示，回應質量高（中位分數4），可理解性良好（中位72.7%），但可行性較差（中位20%）。可讀性較難，Claude 3.0提供最可靠的回應，而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

A Comparison of Prostate Cancer Screening Information Quality on Standard and Advanced Versions of ChatGPT, Google Gemini, and Microsoft Copilot: A Cross-Sectional Study.
標準版與進階版 ChatGPT、Google Gemini 和 Microsoft Copilot 在前列腺癌篩檢資訊品質的比較：一項橫斷面研究。 Am J Health Promot 2025-01-24

這項研究評估了多款AI聊天機器人在提供前列腺癌（PrCA）決策資訊的效果，包括ChatGPT-3.5、ChatGPT-4.0、Microsoft Copilot等。研究重點在於回應的準確性、完整性、可讀性和可信度，特別針對低識字率族群及高風險的非裔美國男性。結果顯示，雖然資訊準確，但完整性和可讀性各有差異。Microsoft Copilot Pro在標準篩檢問題上表現最佳，而Microsoft Copilot則在低識字率回應中表現突出。總體來說，AI聊天機器人可作為前列腺癌篩檢資訊的輔助資源，但仍需醫療專業指導。 PubMed DOI

ChatGPT-4o outperforms gemini advanced in assisting multidisciplinary decision-making for advanced gastric cancer.
ChatGPT-4o 在協助晚期胃癌多學科決策方面優於 Gemini Advanced Eur J Surg Oncol 2025-04-28

這項研究發現，ChatGPT-4o在晚期胃癌治療建議的準確性和完整性上，表現都比Gemini Advanced更穩定。不過，兩者的建議都只能當作輔助工具，還是需要專業醫師監督，不能單獨用來做臨床決策。 PubMed DOI

Application of AI Chatbot in Responding to Asynchronous Text-Based Messages From Patients With Cancer: Comparative Study.
AI 聊天機器人在回應癌症病患非同步文字訊息的應用：比較性研究 J Med Internet Res 2025-05-21

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示，GPT-4在病患衛教的答案較完整，正確性和安全性也不輸醫師，但在醫療決策上正確率較低，偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說，GPT-4適合用於衛教，但在醫療決策上仍需醫師把關。 PubMed DOI

AI at the Forefront: Navigating Oncologic Care for Six Gastrointestinal Cancers According to the NCCN Guidelines Utilizing Gemini-1.0 Ultra and ChatGPT-4.
AI 前線：運用 Gemini-1.0 Ultra 與 ChatGPT-4 依據 NCCN 指南導航六大腸胃道癌症的腫瘤照護 J Surg Oncol 2025-06-19

這項研究比較了ChatGPT-4和Gemini 1.0 Ultra在回答腸胃道癌症臨床問題的表現，兩者正確率約76–78%，精確度57–65%，但都還不夠精準，還不能直接用在臨床上。兩個模型和不同癌症類型間沒明顯差異，顯示目前AI在腫瘤科臨床決策上還有進步空間，未來還需要更多研究。 PubMed DOI

原始文章

站上相關主題文章列表