The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Large language models in cancer: potentials, risks, and safeguards.
癌症中的大型語言模型：潛力、風險與保障措施。 BJR Artif Intell 2025-01-08

這篇評論分析了大型語言模型（LLMs）在癌症研究中的應用，涵蓋2017至2024年間的相關文獻，共找到59篇文章，分為定量研究、聊天機器人研究及質性討論。研究顯示LLMs在自然語言處理上具優勢，並在臨床支持和數據管理中展現潛力。質性研究則探討風險與倫理問題。評論強調，雖然LLMs能提升癌症護理的數據分析和病患互動，但也需注意數據偏見和倫理挑戰，呼籲對其使用進行監管和持續評估，以確保負責任的應用。 PubMed DOI

Comparing the performance of ChatGPT and ERNIE Bot in answering questions regarding liver cancer interventional radiology in Chinese and English contexts: A comparative study.
比較 ChatGPT 和 ERNIE Bot 在中英文語境下回答有關肝癌介入放射學問題的表現：一項比較研究。 Digit Health 2025-01-24

這項研究評估了兩個大型語言模型（LLMs），ERNIE Bot 和 ChatGPT，在回答肝癌介入放射學問題的有效性，特別是針對經動脈化療栓塞（TACE）和肝動脈灌注化療（HAIC）。共設計38個問題，由10位專業人士評估兩者的回答。結果顯示，ERNIE Bot 在中文環境中表現較佳，而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊，但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

[Evaluating the accuracy of large language models in answering mammography screening questions in Italian and English: a study based on the Eusobi guidelines.].
「評估大型語言模型在回答意大利語和英語乳腺攝影篩檢問題的準確性：基於Eusobi指導方針的研究。」 Recenti Prog Med 2025-03-14

這項研究探討大型語言模型（LLMs），如ChatGPT、Gemini和Copilot，在乳房影像學問題上的表現。研究中，五位乳房放射科醫生提出九個乳房攝影篩檢問題，並由兩位專家評估LLMs的回答。結果顯示，兩種語言的回答平均分數相似，約在3.6到4分之間。一般問題的回答較準確，但針對特定問題，尤其是密集乳房的定義，回答常常不完整。此外，意大利語的來源引用不夠專業，顯示LLMs在提供醫療資訊上的限制。總體而言，LLMs雖能促進醫療溝通，但在專業領域的準確性仍需加強，強調AI與醫療專業人員合作的重要性。 PubMed DOI

Evaluation of Large Language Models in Tailoring Educational Content for Cancer Survivors and Their Caregivers: Quality Analysis.
大型語言模型在為癌症倖存者及其照顧者量身定制教育內容中的評估：質量分析。 JMIR Cancer 2025-04-07

這項研究探討大型語言模型（LLMs）在為癌症倖存者及其照顧者創建教育材料的有效性，特別針對弱勢群體。研究比較了三個模型（GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo）在生成30個癌症護理主題內容的表現，目標是達到六年級的閱讀水平，並提供西班牙語和中文翻譯。主要發現包括：LLMs整體表現良好，74.2%符合字數限制，平均質量分數為8.933，但只有41.1%達到所需閱讀水平。翻譯準確率高，西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo，使用項目符號提示效果更佳。結論指出，LLMs在創建可及的教育資源方面潛力大，但需改善閱讀水平和內容全面性，未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

Application of AI Chatbot in Responding to Asynchronous Text-Based Messages From Patients With Cancer: Comparative Study.
AI 聊天機器人在回應癌症病患非同步文字訊息的應用：比較性研究 J Med Internet Res 2025-05-21

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示，GPT-4在病患衛教的答案較完整，正確性和安全性也不輸醫師，但在醫療決策上正確率較低，偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說，GPT-4適合用於衛教，但在醫療決策上仍需醫師把關。 PubMed DOI

原始文章

站上相關主題文章列表