Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Comparing the dental knowledge of large language models.
比較大型語言模型的牙科知識。 Br Dent J 2024-11-01

**引言** 隨著人工智慧的發展，大型語言模型（LLMs）在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本，潛在地提升臨床實踐和病人教育，但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識，透過分析它們對全國牙科考試（INBDE）問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs，針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高，達75.88%；Claude-2.1為66.38%；Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力，並強調選擇合適模型的重要性，但在臨床應用前仍需克服一些挑戰。 PubMed DOI

Human versus artificial intelligence: evaluating ChatGPT's performance in conducting published systematic reviews with meta-analysis in chronic pain research.
人類與人工智慧：評估 ChatGPT 在慢性疼痛研究中進行已發表的系統性回顧與統合分析的表現。 Reg Anesth Pain Med 2025-02-16

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現，特別是在脊髓刺激後情緒功能的數據上。結果顯示，ChatGPT在標題和摘要篩選的準確率為70.4%，而全文篩選的準確率為68.4%。在數據整合方面，ChatGPT的準確率達到100%。雖然在篩選任務中表現中等，但在數據整合上表現優異。研究指出，人工智慧能提升系統性回顧的效率，但仍需人類監督以確保研究質量。 PubMed DOI

Evaluating the Accuracy, Reliability, Consistency, and Readability of Different Large Language Models in Restorative Dentistry.
評估不同大型語言模型在修復牙科中的準確性、可靠性、一致性和可讀性。 J Esthet Restor Dent 2025-03-03

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現，包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示，ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」，而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中，Chatsonic表現最佳；在牙科問題中，ChatGPT-4o最突出。整體來看，這些AI在準確性和可讀性上各有優劣，顯示出在牙科領域的潛力。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

Chatbots for Conducting Systematic Reviews in Pediatric Dentistry.
兒童牙科系統性回顧的聊天機器人。 J Dent 2025-04-07

這項研究評估了兩個聊天機器人（ChatGPT4 和 Gemini）及兩位非專家在進行兒童牙科人工智慧的系統性回顧中的表現，並與專家進行比較。結果顯示，ChatGPT在制定PICO問題上稍勝一籌，但專家識別的記錄數量明顯高於其他組別。雖然聊天機器人在篩選和數據提取上效率高，敏感度達90%，但精確度較低。研究結論強調，人類監督對於確保準確性和完整性仍然至關重要。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

Large Language Models and the Analyses of Adherence to Reporting Guidelines in Systematic Reviews and Overviews of Reviews (PRISMA 2020 and PRIOR).
大型語言模型與系統性回顧及回顧之總覽中報告指引遵循性分析（PRISMA 2020 與 PRIOR） J Med Syst 2025-06-12

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現，所有模型在PRISMA 2020的判斷上都高估了合規情況，準確度不如人類專家；但在PRIOR指引上，ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究，未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

原始文章

站上相關主題文章列表