原始文章

這項研究評估了基於人工智慧的聊天機器人,特別是ChatGPT 3.5和Claude-instant,在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題,並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示,ChatGPT和Claude-instant都提供高質量的回應,ChatGPT的質量評分分別為86%和79.6%,而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步,可能提升醫療效率並降低成本。 PubMed DOI


站上相關主題文章列表

研究發現使用ChatGPT-4在正顎手術諮詢中有幫助,提供重要資訊,但強調個人化醫療建議的重要性。雖然ChatGPT-4有用,但不能取代醫療專業人員的專業知識。它可支持患者和醫師應對手術複雜性。 PubMed DOI

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

ChatGPT-4在口腔外科上表現不錯,但僅準確率71.7%,應視為輔助而非取代。未來需透過專家監督及深入研究,才能安全有效地整合人工智慧於口腔外科決策中。 PubMed DOI

研究比較了不同聊天機器人在口腔顎面外科問題上的表現,結果顯示它們的準確性普遍不高,GPT-4在開放式問題上表現較好。這表明聊天機器人在臨床決策中可能不夠可靠。 PubMed DOI

這項研究評估了ChatGPT Plus在口腔與顏面外科的回應效果,於Ege大學進行,涵蓋66個問題,依難易度分為簡單、中等和困難,主題包括牙科麻醉和拔牙。研究者使用7分制評分,結果顯示中位數準確性得分為5,75%的回應得分4以上;中位數品質得分為4,75%的回應得分3以上。不同難度的問題得分有顯著差異,較困難的問題得分較低。總體來看,ChatGPT Plus在簡單問題上表現良好,但對於需要詳細答案的問題則較弱。 PubMed DOI

本研究評估九種聊天機器人在回答特殊需求牙科問題的準確性與一致性。測試結果顯示,這些機器人的平均準確率為55%,其中是非題的準確率較高(67%),而診斷問題則較低(37%)。不同機器人之間的準確性無顯著差異,但所有機器人的可靠性均可接受,Claude-instant的可靠性最高(0.93)。雖然目前臨床相關性尚未完全確立,但這些工具在特殊需求牙科領域未來可能具潛在應用價值。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

這項研究評估了ChatGPT在口腔外科、預防牙科和口腔癌領域提供的資訊質量。專家設計了50個問題,結果顯示ChatGPT在預防牙科方面表現最佳,得分4.3(滿分5),能有效傳達複雜資訊。但在口腔外科(3.9)和口腔癌(3.6)方面得分較低,顯示在術後指導和個性化建議上有不足。研究強調在使用AI資訊時需有專業監督,並持續評估AI的能力,以確保病人護理的負責任使用。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI