Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Evaluation of ChatGPT as a Reliable Source of Medical Information on Prostate Cancer for Patients: Global Comparative Survey of Medical Oncologists and Urologists.
評估 ChatGPT 作為前列腺癌患者可靠醫療資訊來源的能力：全球醫療腫瘤科醫師與泌尿科醫師的比較調查。 Urol Pract 2024-11-07

這項研究評估了ChatGPT在生成前列腺癌相關醫療回應的表現。研究期間為2023年4月至6月，超過700名醫療腫瘤科和泌尿科醫師參與，且他們不知是在評估AI。結果顯示，602名受訪者在9個問題中有7個偏好AI生成的回應，但仍認為醫療網站更可信。98名受訪者對AI生成的複雜問題回應給予高評價，顯示臨床醫師欣賞AI的清晰度，但仍偏好傳統網站作為資訊來源。這提供了對臨床醫師評估AI內容的見解，並為未來的AI驗證研究提出了評估標準。 PubMed DOI

Comparing the performance of ChatGPT and ERNIE Bot in answering questions regarding liver cancer interventional radiology in Chinese and English contexts: A comparative study.
比較 ChatGPT 和 ERNIE Bot 在中英文語境下回答有關肝癌介入放射學問題的表現：一項比較研究。 Digit Health 2025-01-24

這項研究評估了兩個大型語言模型（LLMs），ERNIE Bot 和 ChatGPT，在回答肝癌介入放射學問題的有效性，特別是針對經動脈化療栓塞（TACE）和肝動脈灌注化療（HAIC）。共設計38個問題，由10位專業人士評估兩者的回答。結果顯示，ERNIE Bot 在中文環境中表現較佳，而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊，但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Chinese generative AI models (DeepSeek and Qwen) rival ChatGPT-4 in ophthalmology queries with excellent performance in Arabic and English.
中文生成式 AI 模型（DeepSeek 與 Qwen）在眼科問題中，以阿拉伯語和英語展現出色表現，媲美 ChatGPT-4。 Narra J 2025-05-12

這項研究發現，中國的生成式AI模型 Qwen-2.5 在回答眼科問題時，不論用英文還是阿拉伯文，表現都比 DeepSeek-R1 和 ChatGPT-40 更好。所有AI都展現出不錯的多語言能力，顛覆了AI只偏好英文的看法。中國AI在醫療諮詢領域已經能和 ChatGPT-40 一較高下，甚至更勝一籌。 PubMed DOI

A comparison of performance of DeepSeek-R1 model-generated responses to musculoskeletal radiology queries against ChatGPT-4 and ChatGPT-4o - A feasibility study.
DeepSeek-R1 模型在肌肉骨骼放射學問題回應表現與 ChatGPT-4 及 ChatGPT-4o 之比較－一項可行性研究 Clin Imaging 2025-05-17

這項研究發現，ChatGPT-4 和 4o 在回答肌肉骨骼放射學問題時，表現比 DeepSeek R1 好很多，答案更準確、結構清楚，參考資料也比較可靠。特別是針對最新研究，ChatGPT-4o 最值得信賴；相較之下，DeepSeek R1 常出錯，還會給假資料，還需要再加強。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

ChatGPT versus DeepSeek in head and neck cancer staging and treatment planning: guideline-based study.
ChatGPT 與 DeepSeek 在頭頸癌分期與治療規劃之比較：依循指引的研究 Eur Arch Otorhinolaryngol 2025-06-16

模擬研究發現，DeepSeek 在頭頸癌治療計畫擬定上比 ChatGPT 更準確，兩者在腫瘤分期表現差不多。雖然正確率有統計意義，但目前還無法取代多專科團隊，較適合輔助臨床流程。未來應聚焦開發安全且能客製化的腫瘤科 AI。 PubMed DOI

原始文章

站上相關主題文章列表