Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Assessment of decision-making with locally run and web-based large language models versus human board recommendations in otorhinolaryngology, head and neck surgery.
耳鼻喉科、頭頸外科中當地運行和基於網絡的大型語言模型與人類專家委員會建議的決策評估。 Eur Arch Otorhinolaryngol 2025-01-10

這項研究探討大型語言模型（LLMs）在耳鼻喉科手術腫瘤建議中的潛力。研究比較了多學科腫瘤委員會（MDT）與兩個LLMs（ChatGPT-4o和Llama 3）的建議。結果顯示，ChatGPT-4o與MDT的符合率為84%，Llama 3則為92%。兩者都能識別第一線治療選擇，且MDT的建議在28%的案例中被模型採納。雖然LLMs的建議受到正面評價，但研究強調應用於輔助決策，而非取代專業醫師，特別是考量數據保護問題。Llama 3的本地運行特性顯示出臨床應用潛力。 PubMed DOI

Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

Assessing the Informational Value of Large Language Models Responses in Aesthetic Surgery: A Comparative Analysis with Expert Opinions.
評估大型語言模型在美學手術中回應的資訊價值：與專家意見的比較分析。 Aesthetic Plast Surg 2025-02-18

這項研究評估了大型語言模型（LLMs），如ChatGPT和Google Bard，對美學整形手術的回應可靠性，並與經驗豐富的外科醫生的見解進行比較。研究分析了三十位患者對皮膚填充劑、肉毒桿菌注射和眼瞼手術等問題的回應。十三位外科醫生根據可及性、準確性和實用性評估了LLM的回應。結果顯示，雖然聊天機器人的回應通常清晰且準確，但缺乏來源透明度限制了其可信度。研究建議在依賴LLMs作為主要信息來源時需謹慎，並呼籲進一步研究以增強其在醫療保健中的可靠性。 PubMed DOI

Comparative analysis of GPT-4 and Google Gemini's consistency with pediatric otolaryngology guidelines.
GPT-4 與 Google Gemini 在小兒耳鼻喉科指導方針一致性的比較分析。 Int J Pediatr Otorhinolaryngol 2025-04-09

這項研究評估了兩個大型語言模型（LLMs），GPT-4 和 Google Gemini，在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分，結果顯示兩者都表現良好，GPT-4 準確性為 4.74，Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異，但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力，並強調持續改進的必要性，AI 應輔助而非取代人類專業知識。 PubMed DOI

AI in clinical decision-making: ChatGPT-4 vs. Llama2 for otolaryngology cases.
臨床決策中的人工智慧：ChatGPT-4 與 Llama2 在耳鼻喉科案例中的比較。 Eur Arch Otorhinolaryngol 2025-04-12

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示，ChatGPT-4在82%的案例中正確診斷，優於Llama2的76%。在額外檢查建議上，ChatGPT-4的相關性為88%，Llama2則為83%。治療適當性方面，ChatGPT-4達80%，Llama2為72%。雖然兩者表現不錯，但仍有不適當建議的情況，顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

Artificial intelligence in pediatric otolaryngology: A state-of-the-art review of opportunities and pitfalls.
兒童耳鼻喉科中的人工智慧：機會與陷阱的最新綜述 Int J Pediatr Otorhinolaryngol 2025-05-07

AI和機器學習已在小兒耳鼻喉科如中耳炎、睡眠呼吸中止症等診斷治療展現潛力，但因缺乏兒童專屬資料、過度依賴成人模型及演算法偏誤等問題，發展受限。未來應加強兒科資料蒐集、開發專屬模型並納入心理社會因素，提升安全與成效。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Clinical decision support using large language models in otolaryngology: a systematic review.
耳鼻喉科中運用大型語言模型進行臨床決策支援：系統性回顧 Eur Arch Otorhinolaryngol 2025-06-06

這篇系統性回顧分析17篇研究，探討大型語言模型（如ChatGPT、Claude、Gemini）在耳鼻喉頭頸外科臨床決策的應用。結果顯示，LLMs在診斷準確率中等，Claude表現通常比ChatGPT好，但在檢查和治療建議的準確率偏低，且不同次專科差異大。總結來說，LLMs在診斷有潛力，但治療建議還不夠穩定，未來需標準化研究方法。 PubMed DOI

原始文章

站上相關主題文章列表