To trust or not to trust: evaluating the reliability and safety of AI responses to laryngeal cancer queries.
信任還是不信任：評估人工智慧對喉癌查詢的可靠性和安全性。 Eur Arch Otorhinolaryngol 2024-04-23

研究比較了三個大型語言模型在提供喉癌資訊的表現，發現ChatGPT 3.5比ChatGPT 4.0和Bard更可靠安全。耳鼻喉科專家、初級醫師和非醫學評審參與評估，認為ChatGPT 3.5的回應安全性和質量最佳。總結來說，像ChatGPT 3.5這樣的語言模型對尋求喉癌資訊的患者是有價值的資源。 PubMed DOI

Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Do Large Language Model Chatbots perform better than established patient information resources in answering patient questions? A comparative study on melanoma.
大型語言模型聊天機器人在回答患者問題方面是否優於既有的患者資訊資源？一項關於黑色素瘤的比較研究。 Br J Dermatol 2024-10-04

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，對黑色素瘤病人問題的回答效果，並與荷蘭的病人資訊資源（PIRs）比較。結果顯示，ChatGPT-3.5在準確性上表現最佳，而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定，某網站在個人化和可讀性上特別強。整體來看，LLMs在大多數領域超越PIRs，但準確性仍需加強，且LLM的可重複性隨時間下降。研究強調，LLMs需提升準確性和可重複性，才能有效取代或補充傳統PIRs。 PubMed DOI

Assessing the performance of large language models (LLMs) in answering medical questions regarding breast cancer in the Chinese context.
在中國背景下評估大型語言模型 (LLMs) 回答有關乳腺癌的醫學問題的表現。 Digit Health 2024-10-11

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現，特別針對中國的情境。分析了60個腫瘤科醫生提出的問題，結果顯示： - ChatGPT 提供了最多的全面回答，佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低，平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。總體來看，這些模型可作為乳腺癌資訊工具，但在專業治療問題上不可靠，應在醫療專業人員指導下使用。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Large language models in cancer: potentials, risks, and safeguards.
癌症中的大型語言模型：潛力、風險與保障措施。 BJR Artif Intell 2025-01-08

這篇評論分析了大型語言模型（LLMs）在癌症研究中的應用，涵蓋2017至2024年間的相關文獻，共找到59篇文章，分為定量研究、聊天機器人研究及質性討論。研究顯示LLMs在自然語言處理上具優勢，並在臨床支持和數據管理中展現潛力。質性研究則探討風險與倫理問題。評論強調，雖然LLMs能提升癌症護理的數據分析和病患互動，但也需注意數據偏見和倫理挑戰，呼籲對其使用進行監管和持續評估，以確保負責任的應用。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

Online Health Information-Seeking in the Era of Large Language Models: Cross-Sectional Web-Based Survey Study.
大型語言模型時代的線上健康資訊搜尋：橫斷面網路調查研究。 J Med Internet Res 2025-03-31

這項研究探討使用者對大型語言模型（LLM）驅動的聊天機器人（如ChatGPT）提供的健康資訊的看法，與傳統線上資源相比。結果顯示，98%的參與者仍主要依賴搜尋引擎尋找健康資訊，只有21.2%使用聊天機器人。大多數人尋求健康狀況資訊，但對於用藥建議和自我診斷的需求較低。雖然LLM聊天機器人逐漸受到年輕族群的青睞，但使用者在遵循建議時仍較為謹慎。研究強調提高準確性和透明度對於健康資訊的安全性至關重要。 PubMed DOI

原始文章

站上相關主題文章列表