原始文章

這篇評論指出,像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯,能幫助病人和醫護人員。不過,有時用詞太專業、同理心表現也不夠穩定。雖然有潛力,但遇到複雜情況還是需要專家把關,目前只能當輔助工具,不能取代醫師專業。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)因其類似人類的溝通能力而受到廣泛關注,尤其在泌尿科等領域的應用逐漸被重視。不過,透明度、問責性和準確性仍然是主要的擔憂。本文探討了LLMs的倫理、技術和實際挑戰,並進行文獻回顧以評估相關研究。像OpenAI的GPT和Google的Gemini等模型在文本數據處理上展現潛力,能協助病人資訊和行政任務,但其臨床有效性仍待驗證。解決倫理和技術挑戰對於確保其負責任的應用至關重要。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)生成的泌尿科病人資訊小冊子(PILs)品質,包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術(TURP)進行評估。結果顯示,PaLM 2的PILs品質最佳,平均得分3.58,且最易閱讀。雖然LLMs能減輕醫療人員負擔,但內容仍需臨床醫師審查,且閱讀水平偏高,顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

這篇評論評估了GPT-4在尿路結石診斷與治療問題上的表現,並與歐洲泌尿學會(EAU)指導方針進行比較。雖然GPT-4的回答大致符合指導方針,但有六個回答缺少關鍵內容,八個則包含錯誤資訊。模型在初步診斷和治療計劃上表現相對安全,但在預防性治療的複雜性上表現不佳,未能完全遵循EAU的策略。總體而言,GPT-4在泌尿科問題上顯示潛力,但仍需改進準確性和臨床相關性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像,結果顯示整體診斷準確率為89.2%。其中,ChatGPT-4 V的準確率為82.8%,Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤,ChatGPT-4 V達92.2%;膀胱炎檢測則高達94.5%。然而,對良性前列腺增生的準確率較低,分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具,但需進一步提升其診斷準確性。 PubMed DOI