原始文章

這項研究評估了四款AI聊天機器人(Bing、ChatGPT 3.5、Google Gemini和Claude AI)在回答牙齒創傷相關問題的表現。研究團隊最初設計了30個問題,經專家精煉後選出20個,並向每個聊天機器人提出三次,共收集240個回應。使用5分制進行評分,結果顯示Claude AI在有效性和可靠性上表現最佳,而Bing的可靠性最低。研究強調了制定指導方針以確保AI提供準確醫療資訊的重要性。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、Google Bard和Bing對根管治療問題的回答。專業醫師提問三次,由專家評分。結果顯示GPT-3.5在高閾值下比Google Bard和Bing更準確。三者皆可靠,但GPT-3.5提供較可信的根管治療資訊。 PubMed DOI

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

研究評估了6個口腔醫學領域的人工智慧聊天機器人,發現GPT-4在口腔放射學和整體表現方面表現最佳。其中23.50%的引用資料是虛假的,建議開發者應加入引用驗證器以確保資訊準確性。 PubMed DOI

研究比較了不同聊天機器人在口腔顎面外科問題上的表現,結果顯示它們的準確性普遍不高,GPT-4在開放式問題上表現較好。這表明聊天機器人在臨床決策中可能不夠可靠。 PubMed DOI

研究比較ChatGPT和Google Bard回答牙齒創傷問題,結果顯示正確率僅57.5%。Google Bard雖一致性中等,但也有錯誤答案,建議還是諮詢醫師。人工智慧工具有潛力,但處理牙齒創傷仍有限制。未來研究應專注於根管治療訓練的人工智慧模型,以提升臨床應用的準確性。 PubMed DOI

這項研究探討了ChatGPT 3.5在回答牙科問題的準確性和完整性。十位專家提出30個問題,並用李克特量表評估ChatGPT的回答。結果顯示,雖然ChatGPT的準確性(中位數5.50)和完整性(中位數2.00)表現不錯,但仍有改進空間。經過重新評估後,其表現顯著提升,顯示機器學習的潛力。不過,研究也指出仍有不準確之處,特別是參考資料,強調人類判斷在臨床決策中的重要性,以及基於證據的醫療實踐的必要性。 PubMed DOI

本研究評估九種聊天機器人在回答特殊需求牙科問題的準確性與一致性。測試結果顯示,這些機器人的平均準確率為55%,其中是非題的準確率較高(67%),而診斷問題則較低(37%)。不同機器人之間的準確性無顯著差異,但所有機器人的可靠性均可接受,Claude-instant的可靠性最高(0.93)。雖然目前臨床相關性尚未完全確立,但這些工具在特殊需求牙科領域未來可能具潛在應用價值。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT 3.5、ChatGPT 4.0、Bard和Bing)在牙髓及根尖周圍疾病診斷和治療建議的準確性。研究創建了十一個案例,結果顯示Bing和ChatGPT 4.0的診斷準確率最高,分別為86.4%和85.3%。在治療建議方面,ChatGPT 4.0和Bing表現相似,均超過90%。整體一致性率達98.29%,但仍需牙科專業人員謹慎解讀這些AI的回應,因為存在不一致性。 PubMed DOI

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI