原始文章

這項研究評估大型語言模型(LLMs)在小兒耳鼻喉科資訊提供的有效性,並與人類醫師比較。研究中提出54個問題,詢問幾個LLMs、一名住院醫師和一位小兒ORL專家。結果顯示,LLMs在理論情境下表現接近專家,但缺乏來源透明度,且在病人中心問題上效果較差。評審者對於區分人類與AI回答的共識不佳。總體而言,LLMs在小兒ORL有輔助潛力,但仍需人類監督以改善來源透明度和溝通能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究探討大型語言模型(LLMs)在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會(MDT)與兩個LLMs(ChatGPT-4o和Llama 3)的建議。結果顯示,ChatGPT-4o與MDT的符合率為84%,Llama 3則為92%。兩者都能識別第一線治療選擇,且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價,但研究強調應用於輔助決策,而非取代專業醫師,特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Google Bard,對美學整形手術的回應可靠性,並與經驗豐富的外科醫生的見解進行比較。研究分析了三十位患者對皮膚填充劑、肉毒桿菌注射和眼瞼手術等問題的回應。十三位外科醫生根據可及性、準確性和實用性評估了LLM的回應。結果顯示,雖然聊天機器人的回應通常清晰且準確,但缺乏來源透明度限制了其可信度。研究建議在依賴LLMs作為主要信息來源時需謹慎,並呼籲進一步研究以增強其在醫療保健中的可靠性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 和 Google Gemini,在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分,結果顯示兩者都表現良好,GPT-4 準確性為 4.74,Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異,但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力,並強調持續改進的必要性,AI 應輔助而非取代人類專業知識。 PubMed DOI

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現,GPT-4o正確率最高,特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯,但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看,新一代LLM在醫療領域很有潛力,但表現會變動,需持續追蹤和優化。 PubMed DOI

AI和機器學習已在小兒耳鼻喉科如中耳炎、睡眠呼吸中止症等診斷治療展現潛力,但因缺乏兒童專屬資料、過度依賴成人模型及演算法偏誤等問題,發展受限。未來應加強兒科資料蒐集、開發專屬模型並納入心理社會因素,提升安全與成效。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這篇系統性回顧分析17篇研究,探討大型語言模型(如ChatGPT、Claude、Gemini)在耳鼻喉頭頸外科臨床決策的應用。結果顯示,LLMs在診斷準確率中等,Claude表現通常比ChatGPT好,但在檢查和治療建議的準確率偏低,且不同次專科差異大。總結來說,LLMs在診斷有潛力,但治療建議還不夠穩定,未來需標準化研究方法。 PubMed DOI