原始文章

這項研究評估了生成式人工智慧(GenAI)在遠程諮詢中對口腔癌問題的回應準確性。研究人員分析了中國遠程醫療平台的詢問,並在口腔外科醫生的協助下制定參考答案。兩個AI模型,GPT-3.5-turbo和GPT-4o,回答了34個與口腔癌相關的問題。結果顯示,GPT-3.5-turbo的準確率為77.50%,而GPT-4o則達到88.20%。雖然兩者在關鍵點數量上相似,但GPT-4o在可靠性和有效性上更具優勢,適合用於遠程諮詢。總體而言,GPT-4o是處理口腔癌詢問的更佳選擇。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-3.5在回答口腔癌相關問題的準確性,因為早期診斷對患者結果影響重大。研究中提出20個問題,並由醫療專家評估其回答。結果顯示,51.25%的答案被評為非常好,46.25%為好,僅2.5%可接受。專家評分間無顯著差異。雖然ChatGPT提供的資訊可靠,但引用的81篇文獻中,只有13篇是合法的科學文章,10篇為假文獻,其餘則來自各種網站。總體而言,ChatGPT的資訊值得參考,但需謹慎對待其引用來源。 PubMed DOI

這項研究評估了五款AI聊天機器人對口腔癌問題的回應,包括Bing、GPT-3.5、GPT-4、Google Bard和Claude。經過專家評估,GPT-4獲得最高質量分數(17.3),而Bing最低(14.9)。Bard在可讀性上表現最佳,GPT-4和Bard在同理心及引用準確性方面也表現突出。整體來看,GPT-4提供的回應質量最高,但大多數聊天機器人在同理心和準確引用上仍有待加強。 PubMed DOI

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變(OPMLs)的準確性,特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示,GPT 4o在文本診斷中表現最佳,正確回答27個案例,其次是GPT 4.0、3.5和Gemini。在影像識別方面,GPT 4o也優於Gemini。不過,這些模型的準確性仍未達到專家水平,顯示出中等到良好的協議程度。研究指出,雖然人工智慧在診斷OPMLs上有潛力,但整合進臨床實踐時需謹慎。 PubMed DOI

這項研究評估了具影像識別功能的 ChatGPT 4.0 在診斷鱗狀細胞癌 (SCC) 和白斑病的能力,分析了 45 張影像。結果顯示,ChatGPT 4.0 能準確識別白斑病,但對 SCC 的診斷能力有限,需結合臨床病史才能提高準確性。僅依臨床病史時,白斑病和部分 SCC 的誤分類情況明顯。整體而言,雖然在白斑病檢測上有潛力,但對於口腔及咽喉部的 SCC 診斷仍不可靠,未來技術進步可能改善其臨床應用。 PubMed DOI

這項研究評估了GPT-4在解讀口腔黏膜疾病照片及生成結構化報告的能力,重點在於提示工程的影響。研究使用120個案例,分為教科書和網路數據集,報告包含七個項目。結果顯示,GPT-4在教科書數據集的召回率和準確率均高於網路數據集,雖然差異不顯著。研究強調了GPT-4在醫療任務中的潛力,特別是在遠距醫療和同儕溝通方面,並建議未來需更專注於改進。 PubMed DOI

這項研究探討了ChatGPT-4在回答口腔及顏面外科疾病問題的有效性,這些疾病影響全球約35億人。研究使用思維鏈(CoT)方法,評估其在提升公眾對疾病預防和早期檢測認識的表現。專家從全國牙醫執照考試中選取了130道開放式問題和1,805道選擇題。結果顯示,CoT方法顯著提升了ChatGPT-4在開放式問題的準確性和整體表現,選擇題準確性也提高了3.1%。研究強調,ChatGPT-4不應取代醫療專業人員。 PubMed DOI

這項研究評估了基於人工智慧的聊天機器人,特別是ChatGPT 3.5和Claude-instant,在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題,並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示,ChatGPT和Claude-instant都提供高質量的回應,ChatGPT的質量評分分別為86%和79.6%,而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步,可能提升醫療效率並降低成本。 PubMed DOI

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據,並將病變描述輸入ChatGPT以生成診斷,與專家診斷進行比較。結果顯示,聊天機器人的診斷與專家之間有顯著相關性,且能高敏感性識別惡性病變。整體而言,ChatGPT-4在識別可疑惡性病變方面表現出色,顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現,並與專家醫師進行比較。研究在一所醫療中心對20名患者進行,結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤,並在90%的案例中將其列為前三名診斷。雖然敏感性高,但特異性有限,影像分析一致性得分為2.36(滿分5分)。總體而言,ChatGPT-4o顯示潛力,但在特異性和影像解讀上仍需改進,以提升耳鼻喉科的診斷準確性。 PubMed DOI

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示,Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好,平均分數也較高(4.02比3.15)。雖然兩者都能協助臨床醫師,但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI