Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

Multilingual Prediction of Cognitive Impairment with Large Language Models and Speech Analysis.
大型語言模型與語音分析在多語言認知障礙預測中的應用。 Brain Sci 2025-01-08

認知障礙是全球健康的重要議題，急需早期檢測與介入。傳統診斷方法主觀且成本高，資源不足地區更難取得。我們在INTERSPEECH 2024 TAUKADIAL挑戰中，針對169名英語和中文使用者，自動檢測輕度認知障礙（MCI）並預測認知分數。利用Whisper語音模型提取語音嵌入，並採用集成模型，我們在MCI分類中達到81.83%的召回率，認知分數預測則有1.196的均方根誤差，分別排名第二和第一。研究顯示，語言特有的細微差別對準確預測認知障礙至關重要，展現了在多語言環境中進行非侵入性評估的潛力。 PubMed DOI

AI-Powered Laryngoscopy: Exploring the Future With Google Gemini.
AI 驅動的喉鏡檢查：與 Google Gemini 探索未來。 Laryngoscope 2025-02-20

基礎模型（FMs）是先進的AI神經網絡，能執行多種任務，如文本生成和影像分析。最近評估的Google Gemini 1.5 Pro是最大的多模態基礎模型，能準確解讀Google圖片和YouTube的喉鏡檢查影像。結果顯示，Gemini在98.9%的影像中準確識別喉鏡檢查，並在100%的視頻中表現優異。它在影像和視頻中也能診斷病理和識別病變，顯示出在耳鼻喉科的臨床決策支持上有很大潛力。這項研究被歸類為三級證據。 PubMed DOI

Benchmarking Automatic Speech Recognition Technology for Natural Language Samples of Children With and Without Developmental Delays.
針對有無發展遲緩兒童的自然語言樣本，自動語音識別技術的基準測試。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

這項研究探討了OpenAI Whisper自動語音辨識（ASR）模型在轉錄幼兒自然語言的效果，特別針對有語言延遲和正常發展的幼兒。研究進行了34次互動，包含19名唐氏症兒童和15名正常發展兒童。結果顯示，ASR對正常發展兒童的單詞轉錄準確率為50%，但對唐氏症兒童僅14%。兩組的單詞遺漏率約20%，而單詞替換率差異明顯。ASR在捕捉非語音表達方面也有困難，特別是唐氏症組。雖然ASR有助於簡化轉錄，但其限制顯示需要人類監督，特別是對於被低估的族群。 PubMed DOI

Innovations in Otolaryngology Using LLM for Early Detection of Sleep-Disordered Breathing.
利用大型語言模型 (LLM) 在耳鼻喉科的創新，以早期檢測睡眠呼吸障礙。 SLAS Technol 2025-03-23

睡眠呼吸障礙（SDB），特別是阻塞性睡眠呼吸暫停症（OSA），因氣道阻塞影響健康，及早介入非常重要。本研究利用機器學習（ML）和大型語言模型（LLM），透過電子健康紀錄（EHR）來識別SDB。提出的DSS-LLM框架結合動態海鷗搜尋演算法與LLM，使用臨床數據進行特徵提取和預處理，最終達到98.91%的分類準確率，顯示出其在臨床篩檢中的潛力，期望能改善耳鼻喉科的決策與病人結果。 PubMed DOI

Evaluating Large Language Models for Burning Mouth Syndrome Diagnosis.
評估大型語言模型在 Burning Mouth Syndrome 診斷中的應用。 J Pain Res 2025-03-24

這項研究探討大型語言模型（LLMs）在診斷燒灼口症候群（BMS）的準確性。研究使用了三個模型：ChatGPT-4o、Gemini Advanced 1.5 Pro和Claude 3.5 Sonnet，評估100個合成案例。結果顯示，ChatGPT和Claude的準確率達99%，而Gemini為89%。雖然準確率高，但模型在推理上有變異，偶爾會出錯，顯示臨床醫師監督的重要性。研究指出，LLMs可作為BMS的輔助診斷工具，但需專家驗證以確保有效性，對牙醫和專家皆有幫助。 PubMed DOI

Accuracy of ChatGPT-4o in Text and Video Analysis of Laryngeal Malignant and Premalignant Diseases.
ChatGPT-4o 在喉部惡性及前惡性疾病的文本和視頻分析中的準確性。 J Voice 2025-03-27

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現，並與專家醫師進行比較。研究在一所醫療中心對20名患者進行，結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤，並在90%的案例中將其列為前三名診斷。雖然敏感性高，但特異性有限，影像分析一致性得分為2.36（滿分5分）。總體而言，ChatGPT-4o顯示潛力，但在特異性和影像解讀上仍需改進，以提升耳鼻喉科的診斷準確性。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

Artificial Intelligence and Human Expertise in Cleft Lip and Palate Care: A Comparative Study of Accuracy, Readability, and Treatment Quality.
人工智慧與人類專家於唇顎裂照護中的應用：準確性、可讀性與治療品質之比較研究 J Craniofac Surg 2025-06-17

這項研究發現，ChatGPT（特別是GPT-4o）在唇顎裂問題的回答上，表現中等，內容清楚易懂，有時甚至比資淺醫師還專業。不過，AI還是缺乏臨床經驗和細緻判斷，無法完全取代資深醫師。AI適合當輔助工具，幫助病患教育和溝通，搭配專家一起用，能提升照護品質。 PubMed DOI

Exploiting Large Language Models for Diagnosing Autism Associated Language Disorders and Identifying Distinct Features.
運用大型語言模型於自閉症相關語言障礙的診斷與特徵辨識 Res Sq 2025-08-06

這項研究用大型語言模型（LLM）來自動辨識自閉症語言障礙的關鍵特徵，在零樣本情境下，表現比傳統方法好，敏感度和陽性預測值都提升超過10%。LLM能穩定偵測出十種重要語言特徵，顯示它有潛力成為協助自閉症診斷和個人化治療規劃的有效工具。 PubMed DOI

原始文章

站上相關主題文章列表