Evaluating the utility of large language models in generating search strings for systematic reviews in anesthesiology: a comparative analysis of top-ranked journals.
評估大型語言模型在麻醉學系統評價中生成搜尋字串的效用：頂尖期刊的比較分析。 Reg Anesth Pain Med 2025-01-19

這項研究評估了大型語言模型（LLMs）在麻醉學系統性回顧中創建搜尋字串的有效性，特別是ChatGPT 4o和Meta-Analysis Librarian。研究分析了85篇來自頂尖麻醉學期刊的系統性回顧，並生成了四個搜尋字串進行比較。結果顯示，原始搜尋字串的檢索率為65%，明顯優於LLM生成的字串（p=0.001），其中Meta-Analysis Librarian的中位檢索率（24%）也高於ChatGPT 4o（6%）。研究建議進一步探討LLM生成字串在不同資料庫的適用性。 PubMed DOI

Solving Complex Pediatric Surgical Case Studies: A Comparative Analysis of Copilot, ChatGPT-4 and Experienced Pediatric Surgeons' Performance.
解決複雜的兒科外科案例研究：Copilot、ChatGPT-4 與經驗豐富的兒科外科醫生表現的比較分析。 Eur J Pediatr Surg 2025-03-05

這項研究探討大型語言模型（LLMs），特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行，分析了13個臨床案例，並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示，ChatGPT-4的表現（52.1%）優於Copilot（47.9%），但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳，但整體上，醫生對LLMs的評價為一般，顯示出其在臨床決策中的限制，需進一步研究以提升AI的應用能力。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

GP or ChatGPT? Ability of large language models (LLMs) to support general practitioners when prescribing antibiotics.
大型語言模型 (LLMs) 在支持全科醫生開立抗生素時的能力：GP 還是 ChatGPT？ J Antimicrob Chemother 2025-03-13

大型語言模型（LLMs）在醫療領域的應用日益增多，能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs（如ChatGPT、Gemini等）對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%，但在劑量和療程的準確性上較低（50%-75%）。LLMs的表現也不錯，但在參考指導方針的能力上不一致，特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險，雖然它們在抗生素處方上有潛力，但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

From Manual to Machine: Revolutionizing Day Surgery Guideline and Consensus Quality Assessment With Large Language Models.
從手動到機器：利用大型語言模型革新日間手術指導方針和共識質量評估。 J Evid Based Med 2025-03-24

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量，使用手動評估和大型語言模型（LLM）進行分析。共納入54份文件，結果顯示AGREE II的遵循率普遍偏低，最高為41.56%（表達清晰度），最低僅17.28%（發展嚴謹性）。LLM評估的文件得分顯著高於手動評估，顯示LLM在質量評估中具潛力，但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 PubMed DOI

Comparative analysis of GPT-4 and Google Gemini's consistency with pediatric otolaryngology guidelines.
GPT-4 與 Google Gemini 在小兒耳鼻喉科指導方針一致性的比較分析。 Int J Pediatr Otorhinolaryngol 2025-04-09

這項研究評估了兩個大型語言模型（LLMs），GPT-4 和 Google Gemini，在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分，結果顯示兩者都表現良好，GPT-4 準確性為 4.74，Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異，但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力，並強調持續改進的必要性，AI 應輔助而非取代人類專業知識。 PubMed DOI

Large language model-generated clinical practice guideline for appendicitis.
大型語言模型生成的闌尾炎臨床實踐指引 Surg Endosc 2025-04-18

這項研究發現，像ChatGPT-4等大型語言模型在協助制定臨床指引時，能幫忙搜尋資料和草擬建議，但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家，但整體表現相近，有潛力節省時間和資源，未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

What is the role of large language models in the management of urolithiasis?: a review.
大型語言模型在尿路結石管理中的角色：綜述 Urolithiasis 2025-05-15

這篇評論指出，像ChatGPT這類大型語言模型在腎結石的診斷、治療建議和衛教上表現不錯，能幫助病人和醫護人員。不過，有時用詞太專業、同理心表現也不夠穩定。雖然有潛力，但遇到複雜情況還是需要專家把關，目前只能當輔助工具，不能取代醫師專業。 PubMed DOI

Performance evaluation of large language models in pediatric nephrology clinical decision support: a comprehensive assessment.
大型語言模型於兒童腎臟科臨床決策支援之表現評估：全面性評估 Pediatr Nephrol 2025-06-03

這項研究發現，雖然Claude等大型語言模型在小兒腎臟科案例上表現最佳，正確率達86.9%，但所有模型都會出現幻覺，甚至可能給出危險建議。即使用專業資料微調，推理能力也沒提升。目前LLM只能在嚴格監督下協助重複性工作，還不適合獨立臨床應用，未來需加強可靠性與可解釋性。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

原始文章

站上相關主題文章列表