Methodological insights into ChatGPT's screening performance in systematic reviews.
ChatGPT 在系統性評論中篩選表現的方法論見解。 BMC Med Res Methodol 2024-03-30

研究發現使用ChatGPT在放射學文獻篩選上有潛力，能快速且省時，但準確度仍需提升。未來需進一步研究改善其表現，確保在各醫學領域皆可靈活運用。 PubMed DOI

Reliability of large language models for advanced head and neck malignancies management: a comparison between ChatGPT 4 and Gemini Advanced.
大型語言模型在進階頭頸部惡性腫瘤管理中的可靠性：ChatGPT 4 與 Gemini Advanced 的比較。 Eur Arch Otorhinolaryngol 2024-05-25

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現，發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯，但仍有改進空間。研究強調持續更新和驗證的重要性，以更好整合人工智慧到醫療實務。 PubMed DOI

Assessing the Reproducibility of the Structured Abstracts Generated by ChatGPT and Bard Compared to Human-Written Abstracts in the Field of Spine Surgery: Comparative Analysis.
比較 ChatGPT 和 Bard 生成的結構化摘要與人工撰寫的摘要在脊椎外科領域的可重複性：比較分析。 J Med Internet Res 2024-06-26

人工智慧的進步帶來了像ChatGPT和Bard這樣的語言模型，可以產生類似人類寫作的文字。研究比較了它們在撰寫脊椎外科結構摘要方面的表現。結果發現，ChatGPT的摘要符合期刊指南，而Bard的字數更準確，且與人類撰寫的摘要更相似。人工智慧檢測難以區分人工智慧和人類生成的摘要，引發道德疑慮。使用這些工具時需謹慎。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Do ChatGPT and Gemini Provide Appropriate Recommendations for Pediatric Orthopaedic Conditions?
ChatGPT 和 Gemini 是否對小兒骨科疾病提供適當的建議？ J Pediatr Orthop 2024-08-22

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，在提供小兒骨科疾病建議的可靠性，並參考了美國骨科醫學會（AAOS）的指導方針。結果顯示，ChatGPT和Gemini的符合率分別為67%和69%，差異不大。值得注意的是，ChatGPT沒有引用任何研究，而Gemini則參考了16項研究，但大多數存在錯誤或不一致。總體來看，這些模型雖然在某程度上符合指導方針，但仍有許多中立或不正確的陳述，顯示醫療AI模型需改進與提高透明度。 PubMed DOI

Evaluating the Adherence of Large Language Models to Surgical Guidelines: A Comparative Analysis of Chatbot Recommendations and North American Spine Society (NASS) Coverage Criteria.
評估大型語言模型對外科指導方針的遵循性：Chatbot 建議與北美脊柱學會 (NASS) 覆蓋標準的比較分析。 Cureus 2024-10-04

這項研究調查了四個大型語言模型（LLMs）—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會（NASS）頸椎融合指導方針的表現。結果顯示，這些模型的遵循率不高，ChatGPT-4和Bing Chat表現較佳，僅達60%。在特定情況下，所有模型都未能符合NASS建議，顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求，並指出在臨床決策中考慮病人特徵的重要性，顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

Artificial intelligence as a modality to enhance the readability of neurosurgical literature for patients.
人工智慧作為提升神經外科文獻可讀性的方式。 J Neurosurg 2024-11-06

這項研究評估了ChatGPT 3.5和4在創建神經外科文獻摘要的有效性。研究隨機選取150篇2023年發表的摘要，並比較其可讀性與準確性。結果顯示，兩個模型生成的摘要在可讀性上顯著優於原始摘要，GPT3.5的閱讀年級為7.80，GPT4為7.70。科學準確性方面，68.4%的GPT3.5摘要和84.2%的GPT4摘要被醫師評為中等準確性。研究指出，GPT4在改善病人教育上具有潛力，能讓神經外科文獻更易理解。 PubMed DOI

Artificial intelligence versus clinical judgement: how accurately do generative models reflect CNS guidelines for chiari malformation?
人工智慧與臨床判斷：生成模型在 Chiari malformation 中對中樞神經系統指導方針的反映準確性如何？ Clin Neurol Neurosurg 2024-11-29

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題，結果顯示Perplexity的符合率最高，達69.2%，而ChatGPT 4o最低，僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高，顯示出理解上的困難。研究強調，雖然AI能協助臨床，但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

A comparison of large language model-generated and published perioperative neurocognitive disorder recommendations: a cross-sectional web-based analysis.
大型語言模型生成的與已發表的圍手術期神經認知障礙建議的比較：一項橫斷面網路分析。 Br J Anaesth 2025-02-08

圍手術期神經認知障礙（PNDs）是手術後常見的併發症，特別在老年人中，會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性，並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議，並由來自五國的評審進行評估。結果顯示，兩者的建議與指導方針相似，但仍需進一步驗證和臨床醫師的反饋，才能應用於臨床。 PubMed DOI

Large language model-generated clinical practice guideline for appendicitis.
大型語言模型生成的闌尾炎臨床實踐指引 Surg Endosc 2025-04-18

這項研究發現，像ChatGPT-4等大型語言模型在協助制定臨床指引時，能幫忙搜尋資料和草擬建議，但還無法獨立完成系統性文獻搜尋和評估偏誤。雖然LLM產出的指引品質稍低於專家，但整體表現相近，有潛力節省時間和資源，未來還需更多研究和合作才能安全應用於臨床。 PubMed DOI

原始文章

站上相關主題文章列表