Assessment of artificial intelligence applications in responding to dental trauma.
評估人工智慧應用於應對牙齒創傷。 Dent Traumatol 2024-05-14

研究比較ChatGPT和Google Bard回答牙齒創傷問題，結果顯示正確率僅57.5%。Google Bard雖一致性中等，但也有錯誤答案，建議還是諮詢醫師。人工智慧工具有潛力，但處理牙齒創傷仍有限制。未來研究應專注於根管治療訓練的人工智慧模型，以提升臨床應用的準確性。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Can artificial intelligence models serve as patient information consultants in orthodontics?
人工智慧模型能否作為正畸學中的病患資訊顧問？ BMC Med Inform Decis Mak 2024-07-29

對於ChatGPT-3.5、ChatGPT-4、Gemini和Copilot在正畸透明矯正器的回應評估，發現幾個重點： 1. **準確性**：ChatGPT-4表現最佳，平均分數4.5，Copilot次之（4.35），其他模型差異不大。 2. **可靠性**：Copilot在可靠性上優於其他模型，Gemini也高於ChatGPT-3.5。 3. **品質**：Copilot提供的資訊最全面可信。 4. **可讀性**：所有模型的可讀性較低，Gemini表現較佳，FRES達54.12。總體來看，這些模型在準確性和可靠性上表現良好，但可讀性仍需改善，以更好地服務病人。 PubMed DOI

Artificial Intelligence Large Language Models Address Anterior Cruciate Ligament Reconstruction: Superior Clarity and Completeness by Gemini Compared to ChatGPT-4 in Response to American Academy of Orthopedic Surgeons Clinical Practice Guidelines.
人工智慧大型語言模型在前交叉韌帶重建中的應用：Gemini 相較於 ChatGPT-4 在回應美國骨科醫學會臨床實踐指導方針時展現出更優越的清晰度和完整性。 Arthroscopy 2024-09-23

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應，結果顯示兩者表現都不錯，平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4，顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力，對醫療專業人員和病人皆有價值。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Evaluation of validity and reliability of AI Chatbots as public sources of information on dental trauma.
AI 聊天機器人作為牙齒創傷公共資訊來源的有效性和可靠性評估。 Dent Traumatol 2024-10-17

這項研究評估了四款AI聊天機器人（Bing、ChatGPT 3.5、Google Gemini和Claude AI）在回答牙齒創傷相關問題的表現。研究團隊最初設計了30個問題，經專家精煉後選出20個，並向每個聊天機器人提出三次，共收集240個回應。使用5分制進行評分，結果顯示Claude AI在有效性和可靠性上表現最佳，而Bing的可靠性最低。研究強調了制定指導方針以確保AI提供準確醫療資訊的重要性。 PubMed DOI

Evidence-Based Potential of Generative Artificial Intelligence Large Language Models on Dental Avulsion: ChatGPT Versus Gemini.
基於證據的生成式人工智慧大型語言模型在牙齒脫落中的潛力：ChatGPT 與 Gemini 的比較。 Dent Traumatol 2024-11-02

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題，並由四位小兒牙醫評估回答。結果顯示，Gemini的平均得分顯著高於ChatGPT（p = 0.001）。雖然ChatGPT在開放式問題和是非題上表現較好，但在選擇題上不佳。整體來看，Gemini的回答更準確（p = 0.004）。這些結果顯示兩個模型在牙科領域有潛力，但仍需進一步研究和改進。 PubMed DOI

The use of ChatGPT and Google Gemini in responding to orthognathic surgery-related questions: A comparative study.
ChatGPT 與 Google Gemini 在回答正顎手術相關問題中的應用：一項比較研究。 J World Fed Orthod 2024-11-03

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性，使用定量分析方法。研究團隊設計了64個問題的問卷，並由兩位專家評估這三個AI的回應。結果顯示，雖然ChatGPT-3.5的可靠性得分最高，但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異，這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

Large language models in periodontology: Assessing their performance in clinically relevant questions.
牙周病學中的大型語言模型：評估其在臨床相關問題中的表現。 J Prosthet Dent 2024-11-19

這項研究評估了四個大型語言模型（LLMs）在解答牙周病學問題的可靠性，包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題，並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示，ChatGPT 4.0表現最佳，而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力，但不應取代專業牙醫，因為不準確的資訊可能影響病人護理。總之，ChatGPT 4.0優於其他模型，但仍需注意其局限性。 PubMed DOI

Performance of Artificial Intelligence Chatbots in Responding to Patient Queries Related to Traumatic Dental Injuries: A Comparative Study.
人工智慧聊天機器人在回應與創傷性牙齒損傷相關的病人詢問中的表現：一項比較研究。 Dent Traumatol 2024-11-23

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷（TDIs）方面的可讀性、質量和準確性。分析59個問題後發現，所有機器人的回應都難以閱讀，需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低，而ChatGPT 4.0和Google Gemini表現較佳，均獲GQS分數5。儘管ChatGPT 3.5使用廣泛，但提供的資訊有誤導性，研究強調，這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

原始文章

站上相關主題文章列表