原始文章

這項研究發現,目前像 ChatGPT、CoPilot 這類大型語言模型,還沒辦法穩定又準確地更新小兒泌尿科指引內容,主要是因為無法即時取得最新文獻,回覆內容也不夠一致。雖然提示工程有點幫助,但整體表現還是不夠好,暫時還無法取代專家。不過,未來如果有更好的外掛和資料庫支援,這些工具還是有發展空間。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在麻醉學系統性回顧中創建搜尋字串的有效性,特別是ChatGPT 4o和Meta-Analysis Librarian。研究分析了85篇來自頂尖麻醉學期刊的系統性回顧,並生成了四個搜尋字串進行比較。結果顯示,原始搜尋字串的檢索率為65%,明顯優於LLM生成的字串(p=0.001),其中Meta-Analysis Librarian的中位檢索率(24%)也高於ChatGPT 4o(6%)。研究建議進一步探討LLM生成字串在不同資料庫的適用性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。 PubMed DOI

這項研究評估了兩個AI語言模型,GPT-3.5和GPT-4,在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分,結果顯示兩者表現相似,GPT-4稍微高一些,但差異不顯著。分析顯示,模型的內部一致性較低,專家經驗與評價無明顯相關。研究指出,這些AI模型雖能提供基本資訊,但未能解決小兒腎臟科的特定挑戰,強調專業訓練和人類監督的重要性。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs(如ChatGPT、Gemini等)對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%,但在劑量和療程的準確性上較低(50%-75%)。LLMs的表現也不錯,但在參考指導方針的能力上不一致,特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險,雖然它們在抗生素處方上有潛力,但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量,使用手動評估和大型語言模型(LLM)進行分析。共納入54份文件,結果顯示AGREE II的遵循率普遍偏低,最高為41.56%(表達清晰度),最低僅17.28%(發展嚴謹性)。LLM評估的文件得分顯著高於手動評估,顯示LLM在質量評估中具潛力,但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 和 Google Gemini,在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分,結果顯示兩者都表現良好,GPT-4 準確性為 4.74,Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異,但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力,並強調持續改進的必要性,AI 應輔助而非取代人類專業知識。 PubMed DOI

這項研究發現,像ChatGPT-4等大型語言模型在協助制定臨床指引時,能幫忙搜尋資料和草擬建議,但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家,但整體表現相近,有潛力節省時間和資源,未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

這篇評論指出,像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯,能幫助病人和醫護人員。不過,有時用詞太專業、同理心表現也不夠穩定。雖然有潛力,但遇到複雜情況還是需要專家把關,目前只能當輔助工具,不能取代醫師專業。 PubMed DOI

這項研究發現,雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳,正確率達86.9%,但所有模型都會出現幻覺,甚至可能給出危險建議。即使用專業資料微調,推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作,還不適合獨立臨床應用,未來需加強可靠性與可解釋性。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI