原始文章

研究發現,口腔醫學專家在診斷帶圖片的臨床案例時,表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確,尤其在複雜或發炎案例,但整體來說,專家還是最可靠。加入影像資訊能提升診斷準確度,但 AI 目前還無法完全取代專業醫師。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變(OPMLs)的準確性,特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示,GPT 4o在文本診斷中表現最佳,正確回答27個案例,其次是GPT 4.0、3.5和Gemini。在影像識別方面,GPT 4o也優於Gemini。不過,這些模型的準確性仍未達到專家水平,顯示出中等到良好的協議程度。研究指出,雖然人工智慧在診斷OPMLs上有潛力,但整合進臨床實踐時需謹慎。 PubMed DOI

這項研究評估了具影像識別功能的 ChatGPT 4.0 在診斷鱗狀細胞癌 (SCC) 和白斑病的能力,分析了 45 張影像。結果顯示,ChatGPT 4.0 能準確識別白斑病,但對 SCC 的診斷能力有限,需結合臨床病史才能提高準確性。僅依臨床病史時,白斑病和部分 SCC 的誤分類情況明顯。整體而言,雖然在白斑病檢測上有潛力,但對於口腔及咽喉部的 SCC 診斷仍不可靠,未來技術進步可能改善其臨床應用。 PubMed DOI

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據,並將病變描述輸入ChatGPT以生成診斷,與專家診斷進行比較。結果顯示,聊天機器人的診斷與專家之間有顯著相關性,且能高敏感性識別惡性病變。整體而言,ChatGPT-4在識別可疑惡性病變方面表現出色,顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現,並與專家醫師進行比較。研究在一所醫療中心對20名患者進行,結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤,並在90%的案例中將其列為前三名診斷。雖然敏感性高,但特異性有限,影像分析一致性得分為2.36(滿分5分)。總體而言,ChatGPT-4o顯示潛力,但在特異性和影像解讀上仍需改進,以提升耳鼻喉科的診斷準確性。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀下顎智齒拔除用的全口X光片時,正確率只有38.44%,表現不夠理想。雖然回答有一定一致性,但重複性普通,對複雜影像常出錯。現階段還不適合單獨用於牙科臨床,仍需專家把關,未來還要加強AI訓練和開發。 PubMed DOI

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示,Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好,平均分數也較高(4.02比3.15)。雖然兩者都能協助臨床醫師,但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這項研究發現,雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯,但在診斷口腔扁平苔癬時,整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選,LLMs還不適合直接應用於臨床。 PubMed DOI

研究發現,ChatGPT在診斷50個口腔病灶案例時,準確度和專業醫師差不多,表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷,尤其是ChatGPT表現最突出。 PubMed DOI

OpenAI 最新的 o1-preview 模型在處理複雜病患案例時,無論是鑑別診斷還是最終診斷,都比舊版 ChatGPT(3.5 和 4 legacy)更準確,特別是在獨立作業時表現更好。雖然還有進步空間,但這次提升很明顯,AI 融入醫療診斷已經是遲早的事,只是還需要更多驗證。 PubMed DOI