The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

Large language models improve the identification of emergency department visits for symptomatic kidney stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 Sci Rep 2025-01-28

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數為0.833，表現最佳，而GPT-3.5為0.796。微調改善了GPT-3.5的表現，並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見，但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

Evaluating interactions of patients with large language models for medical information.
評估患者與大型語言模型在醫療資訊上的互動。 BJU Int 2025-02-19

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月，共招募300名患者，評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究，結果顯示大多數患者認為聊天機器人的回應有用且易懂，但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出，這類模型可增強患者教育，並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

Diagnostic performance of advanced large language models in cystoscopy: evidence from a retrospective study and clinical cases.
先進大型語言模型在膀胱鏡檢查中的診斷表現：來自回顧性研究和臨床案例的證據。 BMC Urol 2025-03-29

這項研究評估了大型語言模型（LLMs）在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像，結果顯示整體診斷準確率為89.2%。其中，ChatGPT-4 V的準確率為82.8%，Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤，ChatGPT-4 V達92.2%；膀胱炎檢測則高達94.5%。然而，對良性前列腺增生的準確率較低，分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具，但需進一步提升其診斷準確性。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Large language model-generated clinical practice guideline for appendicitis.
大型語言模型生成的闌尾炎臨床實踐指引 Surg Endosc 2025-04-18

這項研究發現，像ChatGPT-4等大型語言模型在協助制定臨床指引時，能幫忙搜尋資料和草擬建議，但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家，但整體表現相近，有潛力節省時間和資源，未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

Identifying Kidney Stone Risk Factors Through Patient Experiences With a Large Language Model: Text Analysis and Empirical Study.
透過大型語言模型分析病患經驗以識別腎結石風險因子：文本分析與實證研究 J Med Internet Res 2025-05-22

這項研究開發了 KSrisk-GPT 工具，能從知乎留言中準確找出腎結石的風險因子，像是飲食、喝水量、遺傳和生活習慣等，還發現補充保健品和濫用瀉藥也是潛在風險。這證明大型語言模型能有效從社群媒體挖掘健康風險，對疾病預防很有幫助。 PubMed DOI

Annual updates of the European Association of Urology - European Society for Pediatric Urology (EAU-ESPU) paediatric urology guidelines: Are large-language models (LLM) better than the usual structured methodology?
歐洲泌尿科醫學會-歐洲小兒泌尿科學會（EAU-ESPU）小兒泌尿科指引的年度更新：大型語言模型（LLM）是否優於傳統的結構化方法？ J Pediatr Urol 2025-06-13

這項研究發現，目前像 ChatGPT、CoPilot 這類大型語言模型，還沒辦法穩定又準確地更新小兒泌尿科指引內容，主要是因為無法即時取得最新文獻，回覆內容也不夠一致。雖然提示工程有點幫助，但整體表現還是不夠好，暫時還無法取代專家。不過，未來如果有更好的外掛和資料庫支援，這些工具還是有發展空間。 PubMed DOI

Implementing Large Language Models in Health Care: Clinician-Focused Review With Interactive Guideline.
在醫療保健中導入大型語言模型：以臨床醫師為中心的綜述與互動式指引 J Med Internet Res 2025-07-11

這篇綜述分析270篇文獻，發現現有大型語言模型（如GPT-4）雖然能協助醫師處理多種臨床任務，但沒有單一模型能全面勝任所有需求，專業任務還需客製化。多數先進模型又是封閉原始碼，造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引，幫助醫師選擇合適的LLM。 PubMed DOI

原始文章

站上相關主題文章列表