The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

Enhanced Artificial Intelligence in Bladder Cancer Management: A Comparative Analysis and Optimization Study of Multiple Large Language Models.
膀胱癌管理中增強人工智慧的應用：多個大型語言模型的比較分析與優化研究。 J Endourol 2025-03-18

本研究探討大型語言模型（LLMs）在膀胱癌管理中的表現。研究設計了100個臨床問題，評估六種LLMs的回應準確性。結果顯示，Claude-3.5-Sonnet以89.33%準確率最佳，ChatGPT-4為85.67%。GPT-3.5-Turbo經過兩階段訓練後，準確率從74.33%提升至100%。研究顯示，針對性訓練能顯著改善模型表現，並指出策略性改進可克服專業醫學應用中的限制。 PubMed DOI

Evaluation of Large Language Models in Tailoring Educational Content for Cancer Survivors and Their Caregivers: Quality Analysis.
大型語言模型在為癌症倖存者及其照顧者量身定制教育內容中的評估：質量分析。 JMIR Cancer 2025-04-07

這項研究探討大型語言模型（LLMs）在為癌症倖存者及其照顧者創建教育材料的有效性，特別針對弱勢群體。研究比較了三個模型（GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo）在生成30個癌症護理主題內容的表現，目標是達到六年級的閱讀水平，並提供西班牙語和中文翻譯。主要發現包括：LLMs整體表現良好，74.2%符合字數限制，平均質量分數為8.933，但只有41.1%達到所需閱讀水平。翻譯準確率高，西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo，使用項目符號提示效果更佳。結論指出，LLMs在創建可及的教育資源方面潛力大，但需改善閱讀水平和內容全面性，未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

Evaluating the performance of large language & visual-language models in cervical cytology screening.
大型語言與視覺-語言模型於子宮頸細胞學篩檢之表現評估 NPJ Precis Oncol 2025-05-23

研究團隊開發了CCBench，首個專門評估大型語言模型和視覺語言模型在子宮頸細胞學篩檢表現的基準資料集。測試結果顯示，雖然GPT-4、Gemini等模型有潛力，但準確度和可靠性仍不如人類專家，且有誤導風險，目前還不適合臨床應用，需再優化改進。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

Advancing medical education in cervical cancer control with large language models for multiple-choice question generation.
運用大型語言模型於多選題生成，推進子宮頸癌防治的醫學教育 Med Teach 2025-06-12

這篇研究發現，用GPT-4o等大型語言模型產生的子宮頸癌選擇題，品質和臨床醫師出的差不多，難易度也相近，臨床醫師不太能分辨題目來源。不過，醫師出的題目在高層次思考上還是比較強，專家也比較能分辨AI題目。總結來說，AI能有效輔助出題，但複雜題目還是需要專業醫師把關。 PubMed DOI

原始文章

站上相關主題文章列表