原始文章

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在回答開放性問題時表現不錯,但對封閉性問題有些不準確。在臨床情境中提供正確診斷,但手術程序方面缺乏完整性。雖然在處理複雜情境上有潛力,但在頭頸外科決策方面仍有改進空間。 PubMed DOI

研究發現使用ChatGPT-4在正顎手術諮詢中有幫助,提供重要資訊,但強調個人化醫療建議的重要性。雖然ChatGPT-4有用,但不能取代醫療專業人員的專業知識。它可支持患者和醫師應對手術複雜性。 PubMed DOI

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

對於ChatGPT-3.5、ChatGPT-4、Gemini和Copilot在正畸透明矯正器的回應評估,發現幾個重點: 1. **準確性**:ChatGPT-4表現最佳,平均分數4.5,Copilot次之(4.35),其他模型差異不大。 2. **可靠性**:Copilot在可靠性上優於其他模型,Gemini也高於ChatGPT-3.5。 3. **品質**:Copilot提供的資訊最全面可信。 4. **可讀性**:所有模型的可讀性較低,Gemini表現較佳,FRES達54.12。 總體來看,這些模型在準確性和可靠性上表現良好,但可讀性仍需改善,以更好地服務病人。 PubMed DOI

這項研究評估了ChatGPT在正畸領域的資訊可靠性,涵蓋透明矯正器、舌側矯正、美觀牙套和顳顎關節障礙。結果顯示,患者對資訊的評價普遍較高,尤其在透明矯正器和顳顎關節障礙方面,患者的DISCERN分數明顯高於學生和正畸醫師。整體而言,ChatGPT在患者教育上展現潛力,但仍需進一步改進以提升其可靠性和相關性。 PubMed DOI

這項研究評估了ChatGPT-4在三個正畸主題上的準確性和資訊品質,包括阻生犬齒、早期正畸治療和顎面外科。五位經驗豐富的正畸醫師使用李克特量表評估20個常見問題的回答。結果顯示,ChatGPT-4在各主題上提供的資訊品質普遍良好,但醫師之間的評分一致性較低,顯示評估存在變異性。雖然ChatGPT-4能提供有用資訊,但在解讀時仍需謹慎,這些資訊不應取代專業建議。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示,ChatGPT在準確性和整體質量上表現較佳,但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整,醫學術語使用普遍,且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查,但仍具提升醫療教育的潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題,並由四位小兒牙醫評估回答。結果顯示,Gemini的平均得分顯著高於ChatGPT(p = 0.001)。雖然ChatGPT在開放式問題和是非題上表現較好,但在選擇題上不佳。整體來看,Gemini的回答更準確(p = 0.004)。這些結果顯示兩個模型在牙科領域有潛力,但仍需進一步研究和改進。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI