原始文章

這篇評論指出,像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯,能幫助病人和醫護人員。不過,有時用詞太專業、同理心表現也不夠穩定。雖然有潛力,但遇到複雜情況還是需要專家把關,目前只能當輔助工具,不能取代醫師專業。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估大型語言模型(LLMs)在提供前列腺癌放射治療病人教育的有效性,並納入臨床醫生和病人的反饋。研究中針對六個常見問題,評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示,雖然所有模型的回答被認為相關且正確,但可讀性較差。病人對ChatGPT-4的評價較高,認為其回答易懂且有信心。整體而言,LLMs在病人教育上有潛力,但準確性和可讀性仍需改進,未來需進一步研究以提升其效益。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數為0.833,表現最佳,而GPT-3.5為0.796。微調改善了GPT-3.5的表現,並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見,但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像,結果顯示整體診斷準確率為89.2%。其中,ChatGPT-4 V的準確率為82.8%,Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤,ChatGPT-4 V達92.2%;膀胱炎檢測則高達94.5%。然而,對良性前列腺增生的準確率較低,分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具,但需進一步提升其診斷準確性。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

這項研究開發了 KSrisk-GPT 工具,能從知乎留言中準確找出腎結石的風險因子,像是飲食、喝水量、遺傳和生活習慣等,還發現補充保健品和濫用瀉藥也是潛在風險。這證明大型語言模型能有效從社群媒體挖掘健康風險,對疾病預防很有幫助。 PubMed DOI

這項研究發現,目前像 ChatGPT、CoPilot 這類大型語言模型,還沒辦法穩定又準確地更新小兒泌尿科指引內容,主要是因為無法即時取得最新文獻,回覆內容也不夠一致。雖然提示工程有點幫助,但整體表現還是不夠好,暫時還無法取代專家。不過,未來如果有更好的外掛和資料庫支援,這些工具還是有發展空間。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI