Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

Development and Evaluation of a GPT4-Based Orofacial Pain Clinical Decision Support System.
基於 GPT4 的口面痛臨床決策支持系統的開發與評估。 Diagnostics (Basel) 2025-01-08

本研究評估了GPT-4在口面痛（OFP）病例中的診斷準確性，並與醫生、專家及醫學生進行比較。研究收集了100個OFP案例，GPT-4根據國際口面痛分類生成診斷。結果顯示，GPT-4在38%的案例中達到最高準確性，並在80%的案例中提供正確鑑別診斷。雖然其表現不及臨床專家，但在特定類別如三叉神經痛中表現優異。GPT-4有潛力成為臨床決策支持系統，但需進一步驗證與指導以確保診斷的可靠性。 PubMed DOI

Evaluation of a context-aware chatbot using retrieval-augmented generation for answering clinical questions on medication-related osteonecrosis of the jaw.
使用檢索增強生成技術評估上下文感知聊天機器人，以回答有關藥物相關性下顎骨壞死的臨床問題。 J Craniomaxillofac Surg 2025-01-11

這項研究強調大型語言模型（LLMs）在醫療領域的潛力，特別是透過檢索增強生成（RAG）來提升數據透明度和準確性。研究團隊開發了GuideGPT，一個能理解上下文的聊天機器人，整合了449篇科學文獻的知識，提供有關藥物相關性顳骨壞死（MRONJ）的資訊。與通用的PureGPT相比，GuideGPT在內容、科學解釋和一致性上表現更佳，顯示RAG能有效提升LLM的回應質量，成為臨床實踐中的重要工具。 PubMed DOI

Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

Artificial intelligence for medication-related osteonecrosis of the jaw: a scoping review.
人工智慧於藥物相關性顎骨壞死（medication-related osteonecrosis of the jaw, MRONJ）的應用：一項範疇性回顧 Oral Surg Oral Med Oral Pathol Oral Radiol 2025-05-20

AI在預測、診斷和管理藥物相關性顎骨壞死（MRONJ）上展現潛力，機器學習和深度學習模型表現優異，語言模型在衛教上也有不錯表現。不過，目前資料品質和臨床應用還有待加強，未來應聚焦於標準化和可解釋的AI模型及臨床指引。 PubMed DOI

How valuable are the questions and answers generated by large language models in oral and maxillofacial surgery?
大型語言模型在口腔顎面外科領域所產生的問答內容有多大的價值？ PLoS One 2025-05-28

這項研究發現，ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成，但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好，顯示多模態輸入有助提升準確度。不過，AI 偶爾還是會出錯或產生幻覺，使用時要多加留意。 PubMed DOI

Diagnostic Performance of ChatGPT-4o and DeepSeek-3 Differential Diagnosis of Complex Oral Lesions: A Multimodal Imaging and Case Difficulty Analysis.
ChatGPT-4o 與 DeepSeek-3 在複雜口腔病變鑑別診斷的診斷表現：多模態影像與病例難度分析 Oral Dis 2025-07-01

研究發現，口腔醫學專家在診斷帶圖片的臨床案例時，表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確，尤其在複雜或發炎案例，但整體來說，專家還是最可靠。加入影像資訊能提升診斷準確度，但 AI 目前還無法完全取代專業醫師。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

The performance of large language models in dentomaxillofacial radiology: a systematic review.
大型語言模型在齒顎顏面放射學的表現：系統性回顧 Dentomaxillofac Radiol 2025-08-12

這篇系統性回顧分析了大型語言模型在牙顎顏面放射學的應用，包括診斷、治療建議、考題作答和報告生成。雖然LLMs在這些任務上展現潛力，但準確率落差大（33%到92.5%），表現還不夠穩定，未來還需要更多改進和驗證，才能真正用在臨床實務上。 PubMed DOI

A Multimodal Large Language Model as an End-to-End Classifier of Thyroid Nodule Malignancy Risk: Usability Study.
多模態大型語言模型作為甲狀腺結節惡性風險的端對端分類器：可用性研究 JMIR Form Res 2025-08-19

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現，發現商業版 o3 準確度和一致性最好，但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助，但提升有限。總結來說，這些 AI 工具還不夠成熟，還需要再改進才能安全用在臨床診斷上。 PubMed DOI

原始文章

站上相關主題文章列表