Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

Large language models in methodological quality evaluation of radiomics research based on METRICS: ChatGPT vs NotebookLM vs radiologist.
基於 METRICS 的放射組學研究方法學質量評估中的大型語言模型：ChatGPT 與 NotebookLM 與放射科醫生的比較。 Eur J Radiol 2025-02-12

這項研究評估了大型語言模型（LLMs），特別是ChatGPT-4和NotebookLM，使用METhodological RadiomICs Score（METRICS）工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章，結果顯示ChatGPT-4的中位數得分為79.5%，優於NotebookLM（61.6%）和人類專家（69.0%），且差異顯著。雖然LLMs在評估速度上較快，但仍需改進，以便更接近人類專家的評估結果。 PubMed DOI

Large Language Models as Decision-Making Tools in Oncology: Comparing Artificial Intelligence Suggestions and Expert Recommendations.
大型語言模型作為腫瘤學中的決策工具：比較人工智慧建議與專家推薦。 JCO Clin Cancer Inform 2025-03-20

這項研究評估大型語言模型（LLMs）在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄，測試了三個AI模型：Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示，Claude3-Opus準確率86.6%，GPT4-Turbo為85.7%，LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好，但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

Evaluation of Large Language Models in Tailoring Educational Content for Cancer Survivors and Their Caregivers: Quality Analysis.
大型語言模型在為癌症倖存者及其照顧者量身定制教育內容中的評估：質量分析。 JMIR Cancer 2025-04-07

這項研究探討大型語言模型（LLMs）在為癌症倖存者及其照顧者創建教育材料的有效性，特別針對弱勢群體。研究比較了三個模型（GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo）在生成30個癌症護理主題內容的表現，目標是達到六年級的閱讀水平，並提供西班牙語和中文翻譯。主要發現包括：LLMs整體表現良好，74.2%符合字數限制，平均質量分數為8.933，但只有41.1%達到所需閱讀水平。翻譯準確率高，西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo，使用項目符號提示效果更佳。結論指出，LLMs在創建可及的教育資源方面潛力大，但需改善閱讀水平和內容全面性，未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Identification of Online Health Information Using Large Pretrained Language Models: Mixed Methods Study.
利用大型預訓練語言模型識別線上健康資訊：混合方法研究 J Med Internet Res 2025-05-14

這項研究比較了四款主流AI（ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark）辨識網路健康資訊真偽的能力。結果顯示，ChatGPT-4 準確率最高，Ernie Bot 和 iFLYTEK Spark 表現也不錯，ChatGPT-3.5 稍微落後。雖然整體表現佳，但在專業或複雜情境下還有進步空間。 PubMed DOI

DeepSeek vs ChatGPT: a comparison study of their performance in answering prostate cancer radiotherapy questions in multiple languages.
DeepSeek 與 ChatGPT：多語言前列腺癌放射治療問答表現之比較研究 Am J Clin Exp Urol 2025-05-22

這項研究發現，DeepSeek 在用中文回答前列腺癌放射治療問題時，表現明顯優於 ChatGPT，尤其在基礎知識和治療照護方面更突出；但用英文時，兩者差異不大。這顯示選擇語言優化的 AI 模型很重要，但專家審查仍不可或缺。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

原始文章

站上相關主題文章列表