原始文章

這項研究評估了四款人工智慧聊天機器人—ChatGPT-4o、MedGebra GPT4o、Meta Llama 3 和 Gemini Advanced,在回答牙髓學的多選題表現。從牙髓學教科書中選取100道題目,進行了兩輪測試。 結果顯示,ChatGPT-4o在兩輪測試中表現最穩定,MedGebra GPT4o在第一輪達到93%的最高準確率,而ChatGPT-4o在第二輪表現最佳(90%)。Meta Llama 3的表現較弱,正確率分別為73%和75%。總體來看,ChatGPT-4o和MedGebra GPT4o在此領域表現優異,但Meta Llama 3和Gemini Advanced仍需改進。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、Google Bard和Bing對根管治療問題的回答。專業醫師提問三次,由專家評分。結果顯示GPT-3.5在高閾值下比Google Bard和Bing更準確。三者皆可靠,但GPT-3.5提供較可信的根管治療資訊。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT 3.5、ChatGPT 4.0、Bard和Bing)在牙髓及根尖周圍疾病診斷和治療建議的準確性。研究創建了十一個案例,結果顯示Bing和ChatGPT 4.0的診斷準確率最高,分別為86.4%和85.3%。在治療建議方面,ChatGPT 4.0和Bing表現相似,均超過90%。整體一致性率達98.29%,但仍需牙科專業人員謹慎解讀這些AI的回應,因為存在不一致性。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

這項研究探討了不同AI聊天機器人對再生性根管治療的回應準確性。研究人員根據美國根管治療學會的指導方針,設計了23個問題,並向三個AI平台詢問,收集了1,380個回應。結果顯示,帶有PDF插件的ChatGPT-4的正確率最高,達98.1%,而Gemini最低,僅48%。雖然其他平台有潛力,但在臨床應用上仍需改進。研究建議未來開發專為根管治療設計的AI工具。 PubMed DOI

這項研究評估了五款流行的AI聊天機器人在回答牙科專科住院醫師考試中的修復牙科問題的效果。共測試126個問題,結果顯示Copilot的準確率最高(73%),其次是Gemini(63.5%)和ChatGPT-3.5(61.1%)。雖然AI模型可作為教育工具,但在修復牙科的可靠性上仍有待加強,尤其在可拆卸局部假牙的準確率最低(50.8%)。未來的技術改進有望提升其在牙科教育中的應用效果。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

這項研究評估了兩個版本的ChatGPT—ChatGPT-4和ChatGPT-4o—在本科牙髓學教育的多選題回答準確性。共提出60個問題,結果顯示ChatGPT-4o的準確率為92.8%,明顯高於ChatGPT-4的81.7%,且p值小於0.001。雖然問題組影響準確率,但一天中的時間對兩者無影響。兩個模型的一致性無顯著差異。總體來看,ChatGPT-4o在準確性上優於ChatGPT-4,顯示AI在牙科教育中的潛在價值,但也需注意其局限性與風險。 PubMed DOI

這項研究比較了三款AI聊天機器人—ChatGPT-3.5、Gemini 1.5 Pro和Copilot—在回答口腔與顏面放射學常見問題的表現。研究選取了十五個問題,並由三位OMR專家根據科學準確性、易懂性和滿意度進行評估。結果顯示,雖然聊天機器人在科學準確性上無顯著差異,但整體文本較為複雜,需較高的閱讀水平。研究強調,與醫療專業人員驗證AI生成資訊對改善病患護理和安全性的重要性。 PubMed DOI