原始文章

研究團隊開發了一套AI系統(ONJ-TS),能整合醫學影像和病歷,協助診斷與治療顎骨壞死。這套系統特別適合醫師人力不足的地區,能回答臨床問題並提供治療建議。測試結果顯示,ONJ-TS的準確度不輸資深專家,表現比資淺醫師更好,有助提升臨床決策和治療品質。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在基礎牙科護理中展現潛力,特別是在診斷口腔疾病方面。評估顯示,這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%,但對冠周炎的診斷能力下降。相比之下,ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看,雖然LLMs在牙科護理中有潛力,但仍需進一步改進。 PubMed DOI

本研究評估了GPT-4在口面痛(OFP)病例中的診斷準確性,並與醫生、專家及醫學生進行比較。研究收集了100個OFP案例,GPT-4根據國際口面痛分類生成診斷。結果顯示,GPT-4在38%的案例中達到最高準確性,並在80%的案例中提供正確鑑別診斷。雖然其表現不及臨床專家,但在特定類別如三叉神經痛中表現優異。GPT-4有潛力成為臨床決策支持系統,但需進一步驗證與指導以確保診斷的可靠性。 PubMed DOI

這項研究強調大型語言模型(LLMs)在醫療領域的潛力,特別是透過檢索增強生成(RAG)來提升數據透明度和準確性。研究團隊開發了GuideGPT,一個能理解上下文的聊天機器人,整合了449篇科學文獻的知識,提供有關藥物相關性顳骨壞死(MRONJ)的資訊。與通用的PureGPT相比,GuideGPT在內容、科學解釋和一致性上表現更佳,顯示RAG能有效提升LLM的回應質量,成為臨床實踐中的重要工具。 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

AI在預測、診斷和管理藥物相關性顎骨壞死(MRONJ)上展現潛力,機器學習和深度學習模型表現優異,語言模型在衛教上也有不錯表現。不過,目前資料品質和臨床應用還有待加強,未來應聚焦於標準化和可解釋的AI模型及臨床指引。 PubMed DOI

這項研究發現,ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成,但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好,顯示多模態輸入有助提升準確度。不過,AI 偶爾還是會出錯或產生幻覺,使用時要多加留意。 PubMed DOI

研究發現,口腔醫學專家在診斷帶圖片的臨床案例時,表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確,尤其在複雜或發炎案例,但整體來說,專家還是最可靠。加入影像資訊能提升診斷準確度,但 AI 目前還無法完全取代專業醫師。 PubMed DOI

研究發現,ChatGPT在診斷50個口腔病灶案例時,準確度和專業醫師差不多,表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷,尤其是ChatGPT表現最突出。 PubMed DOI

這篇系統性回顧分析了大型語言模型在牙顎顏面放射學的應用,包括診斷、治療建議、考題作答和報告生成。雖然LLMs在這些任務上展現潛力,但準確率落差大(33%到92.5%),表現還不夠穩定,未來還需要更多改進和驗證,才能真正用在臨床實務上。 PubMed DOI

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現,發現商業版 o3 準確度和一致性最好,但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助,但提升有限。總結來說,這些 AI 工具還不夠成熟,還需要再改進才能安全用在臨床診斷上。 PubMed DOI