Assessing large language models' accuracy in providing patient support for choroidal melanoma.
評估大型語言模型在提供脈絡膜黑色素瘤患者支持方面的準確性。 Eye (Lond) 2024-07-13

研究評估大型語言模型（LLMs）提供脈絡膜黑色素瘤資訊的準確性，比較三個LLMs，專家審查結果顯示ChatGPT在醫療建議上最準確，手術前後問題上與Bing AI相似。回答長度不影響準確性，LLMs可引導患者尋求專業建議，但在臨床應用前仍需更多微調和監督。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Exploring the role of artificial intelligence, large language models: Comparing patient-focused information and clinical decision support capabilities to the gynecologic oncology guidelines.
探索人工智慧與大型語言模型的角色：比較以病人為中心的信息與臨床決策支持能力對婦科腫瘤學指導方針的影響。 Int J Gynaecol Obstet 2024-08-20

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示，這兩個模型對於一些常見問題的回答大多準確，如子宮頸癌篩檢和 BRCA 相關問題。然而，面對更複雜的案例時，它們的表現較差，常缺乏對地區指導方針的了解。儘管如此，這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出，LLMs 雖無法取代專業醫療建議，但可作為輔助工具，提供資訊和支持。 PubMed DOI

Performance of large language models (LLMs) in providing prostate cancer information.
大型語言模型 (LLMs) 在提供前列腺癌資訊中的表現。 BMC Urol 2024-08-23

這項研究評估了AI聊天機器人，特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現，所有大型語言模型的準確性相似，但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面，而Bard的回答最易讀，獲得最高的易讀性分數。總體來說，這些AI模型雖無法取代醫療專業人員，但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

Can large language models address unmet patient information needs and reduce provider burnout in the management of thyroid disease?
大型語言模型能否滿足患者未被滿足的信息需求並減少在甲狀腺疾病管理中的醫療提供者倦怠？ Surgery 2024-10-18

這項研究探討大型語言模型（LLMs），如ChatGPT，對甲狀腺疾病病人問題的回答效果，並與醫生的回應進行比較。分析了來自Reddit的33個問題，並收集了醫生及LLMs（GPT-3.5和GPT-4）的回應。結果顯示，GPT在準確性、質量和同理心上均優於醫生，特別是GPT-4表現最佳。這顯示LLMs能提供更準確、完整且具同理心的回應，可能有助於減輕醫生的工作負擔及降低職業倦怠。 PubMed DOI

ChatGPT vs. surgeons on pancreatic cancer queries: accuracy & empathy evaluated by patients and experts.
ChatGPT 與外科醫生在胰臟癌問題上的比較：患者與專家評估的準確性與同理心。 HPB (Oxford) 2024-12-13

這項研究探討了人工智慧，特別是ChatGPT，在病患與醫師溝通中的角色，針對胰臟癌手術問題進行比較。研究設計與病患諮詢委員會合作，包含24位病患和25位外科醫師的盲評估。結果顯示，病患和醫師對ChatGPT的內容可靠性達成共識，且認為其回應清晰易懂，具同理心。雖然一位外科醫師的評價最高，但ChatGPT的表現也相當接近。整體而言，研究顯示人工智慧能有效支持病患與醫療提供者的互動。 PubMed DOI

Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

Use of large language models as clinical decision support tools for management pancreatic adenocarcinoma using National Comprehensive Cancer Network guidelines.
使用大型語言模型作為臨床決策支持工具，依據全國綜合癌症網絡指南管理胰腺腺癌。 Surgery 2025-03-07

這項研究評估了OpenAI的ChatGPT和Microsoft的Copilot在根據全國綜合癌症網絡針對胰腺導管腺癌指導方針生成回應的準確性。研究發現，ChatGPT的準確性較Copilot優越，完全正確的回應分別為52%和33%。此外，ChatGPT的回應也較為準確，評分為3.33對3.02。兩者的回應普遍冗長，平均字數分別為270字和32字。研究結論指出，雖然這些模型在臨床決策支持上有潛力，但仍需改進以確保準確性和簡潔性。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

Evaluating large language models as an educational tool for meningioma patients: patient and clinician perspectives.
作為腦膜瘤患者教育工具的大型語言模型評估：患者與臨床醫師的觀點 Radiat Oncol 2025-06-14

這項研究發現，ChatGPT能幫助腦膜瘤患者了解診斷和治療，特別是在放射線治療後的衛教上。大多數患者覺得ChatGPT的回答清楚又正確，六成願意未來再用。醫師也認同內容大致正確，但提醒部分細節、尤其副作用說明還不夠完整。整體來說，ChatGPT適合當作衛教輔助工具，但還是需要醫師把關。 PubMed DOI

原始文章

站上相關主題文章列表