Advancement of Generative Pre-trained Transformer Chatbots in Answering Clinical Questions in the Practical Rhinoplasty Guideline.
實用鼻整形指導中生成預訓練變壓器聊天機器人在回答臨床問題的進展。 Aesthetic Plast Surg 2024-09-25

這項研究評估了兩個AI聊天機器人，GPT-4和GPT-3.5（ChatGPT），在回答鼻整形手術相關臨床問題的表現。分析了10個問題後，兩者準確率均達90%。不過，GPT-4的準確率（86.0%）略低於GPT-3.5（94.0%），但差異不顯著。GPT-4在評估證據信心方面表現更佳（52.0%對28.0%）。兩者在政策層級和證據質量上無顯著差異，但GPT-4引用文獻的頻率較高（36.9%對24.1%）。總體來看，GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

Assessment of decision-making with locally run and web-based large language models versus human board recommendations in otorhinolaryngology, head and neck surgery.
耳鼻喉科、頭頸外科中當地運行和基於網絡的大型語言模型與人類專家委員會建議的決策評估。 Eur Arch Otorhinolaryngol 2025-01-10

這項研究探討大型語言模型（LLMs）在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會（MDT）與兩個LLMs（ChatGPT-4o和Llama 3）的建議。結果顯示，ChatGPT-4o與MDT的符合率為84%，Llama 3則為92%。兩者都能識別第一線治療選擇，且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價，但研究強調應用於輔助決策，而非取代專業醫師，特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

Assessing adult sinusitis guidelines: A comparative analysis of AAO-HNS and AI Chatbots.
評估成人鼻竇炎指導方針：AAO-HNS 與 AI 聊天機器人的比較分析。 Am J Otolaryngol 2025-01-30

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示，準確性差異明顯：Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少，但Llama 2的未完整回應率最高，達40%。整體來看，這些聊天機器人的表現未達臨床指導標準，未來需加強準確性和完整性。 PubMed DOI

Artificial intelligence with ChatGPT 4: a large language model in support of ocular oncology cases.
人工智慧與 ChatGPT 4：大型語言模型在眼科腫瘤病例中的支持。 Int Ophthalmol 2025-02-07

這項研究評估了ChatGPT在分析葡萄膜黑色素瘤患者案例並提供治療建議的能力。研究回顧了40名患者的案例，發現ChatGPT的手術建議準確性為55%，排除眼球摘除後提高至75%。與三位專家的建議一致性分別為50%、55%和57%，在排除眼球摘除後則提升至70%至75%。雖然ChatGPT在簡單案例中表現不錯，但在處理更複雜的情況時仍有其限制，顯示出需要更全面的患者評估。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Accuracy of ChatGPT-4o in Text and Video Analysis of Laryngeal Malignant and Premalignant Diseases.
ChatGPT-4o 在喉部惡性及前惡性疾病的文本和視頻分析中的準確性。 J Voice 2025-03-27

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現，並與專家醫師進行比較。研究在一所醫療中心對20名患者進行，結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤，並在90%的案例中將其列為前三名診斷。雖然敏感性高，但特異性有限，影像分析一致性得分為2.36（滿分5分）。總體而言，ChatGPT-4o顯示潛力，但在特異性和影像解讀上仍需改進，以提升耳鼻喉科的診斷準確性。 PubMed DOI

Comparative analysis of GPT-4 and Google Gemini's consistency with pediatric otolaryngology guidelines.
GPT-4 與 Google Gemini 在小兒耳鼻喉科指導方針一致性的比較分析。 Int J Pediatr Otorhinolaryngol 2025-04-09

這項研究評估了兩個大型語言模型（LLMs），GPT-4 和 Google Gemini，在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分，結果顯示兩者都表現良好，GPT-4 準確性為 4.74，Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異，但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力，並強調持續改進的必要性，AI 應輔助而非取代人類專業知識。 PubMed DOI

ChatGPT-4 vs. multi-disciplinary tumor board decisions for the therapeutic management of primary laryngeal cancer.
ChatGPT-4 與多專科腫瘤團隊在原發性喉癌治療管理決策上的比較 Acta Otolaryngol 2025-05-13

這項研究發現，ChatGPT-4在建議原發性喉癌治療時，有72%和多專科腫瘤團隊（MDT）決策完全一致，且沒有明顯錯誤。其準確度和病人特徵無明顯關聯。未來若再優化，ChatGPT-4有機會成為醫師管理喉癌的好幫手。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Clinical decision support using large language models in otolaryngology: a systematic review.
耳鼻喉科中運用大型語言模型進行臨床決策支援：系統性回顧 Eur Arch Otorhinolaryngol 2025-06-06

這篇系統性回顧分析17篇研究，探討大型語言模型（如ChatGPT、Claude、Gemini）在耳鼻喉頭頸外科臨床決策的應用。結果顯示，LLMs在診斷準確率中等，Claude表現通常比ChatGPT好，但在檢查和治療建議的準確率偏低，且不同次專科差異大。總結來說，LLMs在診斷有潛力，但治療建議還不夠穩定，未來需標準化研究方法。 PubMed DOI

原始文章

站上相關主題文章列表