原始文章

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會(MDT)與兩個LLMs(ChatGPT-4o和Llama 3)的建議。結果顯示,ChatGPT-4o與MDT的符合率為84%,Llama 3則為92%。兩者都能識別第一線治療選擇,且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價,但研究強調應用於輔助決策,而非取代專業醫師,特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示,準確性差異明顯:Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少,但Llama 2的未完整回應率最高,達40%。整體來看,這些聊天機器人的表現未達臨床指導標準,未來需加強準確性和完整性。 PubMed DOI

這項研究評估了ChatGPT在分析葡萄膜黑色素瘤患者案例並提供治療建議的能力。研究回顧了40名患者的案例,發現ChatGPT的手術建議準確性為55%,排除眼球摘除後提高至75%。與三位專家的建議一致性分別為50%、55%和57%,在排除眼球摘除後則提升至70%至75%。雖然ChatGPT在簡單案例中表現不錯,但在處理更複雜的情況時仍有其限制,顯示出需要更全面的患者評估。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現,並與專家醫師進行比較。研究在一所醫療中心對20名患者進行,結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤,並在90%的案例中將其列為前三名診斷。雖然敏感性高,但特異性有限,影像分析一致性得分為2.36(滿分5分)。總體而言,ChatGPT-4o顯示潛力,但在特異性和影像解讀上仍需改進,以提升耳鼻喉科的診斷準確性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 和 Google Gemini,在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分,結果顯示兩者都表現良好,GPT-4 準確性為 4.74,Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異,但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力,並強調持續改進的必要性,AI 應輔助而非取代人類專業知識。 PubMed DOI

這項研究發現,ChatGPT-4在建議原發性喉癌治療時,有72%和多專科腫瘤團隊(MDT)決策完全一致,且沒有明顯錯誤。其準確度和病人特徵無明顯關聯。未來若再優化,ChatGPT-4有機會成為醫師管理喉癌的好幫手。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這篇系統性回顧分析17篇研究,探討大型語言模型(如ChatGPT、Claude、Gemini)在耳鼻喉頭頸外科臨床決策的應用。結果顯示,LLMs在診斷準確率中等,Claude表現通常比ChatGPT好,但在檢查和治療建議的準確率偏低,且不同次專科差異大。總結來說,LLMs在診斷有潛力,但治療建議還不夠穩定,未來需標準化研究方法。 PubMed DOI