原始文章

這項研究發現,目前像 ChatGPT、CoPilot 這類大型語言模型,還沒辦法穩定又準確地更新小兒泌尿科指引內容,主要是因為無法即時取得最新文獻,回覆內容也不夠一致。雖然提示工程有點幫助,但整體表現還是不夠好,暫時還無法取代專家。不過,未來如果有更好的外掛和資料庫支援,這些工具還是有發展空間。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)因其類似人類的溝通能力而受到廣泛關注,尤其在泌尿科等領域的應用逐漸被重視。不過,透明度、問責性和準確性仍然是主要的擔憂。本文探討了LLMs的倫理、技術和實際挑戰,並進行文獻回顧以評估相關研究。像OpenAI的GPT和Google的Gemini等模型在文本數據處理上展現潛力,能協助病人資訊和行政任務,但其臨床有效性仍待驗證。解決倫理和技術挑戰對於確保其負責任的應用至關重要。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)生成的泌尿科病人資訊小冊子(PILs)品質,包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術(TURP)進行評估。結果顯示,PaLM 2的PILs品質最佳,平均得分3.58,且最易閱讀。雖然LLMs能減輕醫療人員負擔,但內容仍需臨床醫師審查,且閱讀水平偏高,顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Bard 在製作小兒白內障病人教育材料的效果。研究使用三個提示來測試模型的表現,並根據質量、可理解性、準確性和可讀性進行評估。結果顯示,所有模型的回應質量都很高,但沒有一個被認為是可行的。特別是,ChatGPT-4 生成的內容最易讀,並能有效將材料調整至六年級的閱讀水平。總體來看,ChatGPT-4 是生成高質量病人教育材料的有效工具。 PubMed DOI

這篇評論評估了GPT-4在尿路結石診斷與治療問題上的表現,並與歐洲泌尿學會(EAU)指導方針進行比較。雖然GPT-4的回答大致符合指導方針,但有六個回答缺少關鍵內容,八個則包含錯誤資訊。模型在初步診斷和治療計劃上表現相對安全,但在預防性治療的複雜性上表現不佳,未能完全遵循EAU的策略。總體而言,GPT-4在泌尿科問題上顯示潛力,但仍需改進準確性和臨床相關性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

這篇評論指出,像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯,能幫助病人和醫護人員。不過,有時用詞太專業、同理心表現也不夠穩定。雖然有潛力,但遇到複雜情況還是需要專家把關,目前只能當輔助工具,不能取代醫師專業。 PubMed DOI

這項研究發現,雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳,正確率達86.9%,但所有模型都會出現幻覺,甚至可能給出危險建議。即使用專業資料微調,推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作,還不適合獨立臨床應用,未來需加強可靠性與可解釋性。 PubMed DOI