Reliability of large language models for advanced head and neck malignancies management: a comparison between ChatGPT 4 and Gemini Advanced.
大型語言模型在進階頭頸部惡性腫瘤管理中的可靠性：ChatGPT 4 與 Gemini Advanced 的比較。 Eur Arch Otorhinolaryngol 2024-05-25

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現，發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯，但仍有改進空間。研究強調持續更新和驗證的重要性，以更好整合人工智慧到醫療實務。 PubMed DOI

Do ChatGPT and Gemini Provide Appropriate Recommendations for Pediatric Orthopaedic Conditions?
ChatGPT 和 Gemini 是否對小兒骨科疾病提供適當的建議？ J Pediatr Orthop 2024-08-22

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，在提供小兒骨科疾病建議的可靠性，並參考了美國骨科醫學會（AAOS）的指導方針。結果顯示，ChatGPT和Gemini的符合率分別為67%和69%，差異不大。值得注意的是，ChatGPT沒有引用任何研究，而Gemini則參考了16項研究，但大多數存在錯誤或不一致。總體來看，這些模型雖然在某程度上符合指導方針，但仍有許多中立或不正確的陳述，顯示醫療AI模型需改進與提高透明度。 PubMed DOI

Comparative Assessment of Otolaryngology Knowledge Among Large Language Models.
大型語言模型之間耳鼻喉科知識的比較評估。 Laryngoscope 2024-09-21

這項研究評估了多個大型語言模型（LLMs）在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集，結果顯示GPT-4表現最佳，正確率達77.1%，其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性，GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異，但GPT-4在教育上仍具潛力，需注意其局限性。 PubMed DOI

The use of ChatGPT and Google Gemini in responding to orthognathic surgery-related questions: A comparative study.
ChatGPT 與 Google Gemini 在回答正顎手術相關問題中的應用：一項比較研究。 J World Fed Orthod 2024-11-03

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性，使用定量分析方法。研究團隊設計了64個問題的問卷，並由兩位專家評估這三個AI的回應。結果顯示，雖然ChatGPT-3.5的可靠性得分最高，但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異，這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

Evaluation of the Usability of ChatGPT-4 and Google Gemini in Patient Education About Rhinosinusitis.
關於鼻竇炎患者教育中 ChatGPT-4 和 Google Gemini 可用性的評估。 Clin Otolaryngol 2025-01-08

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題，涵蓋一般知識、診斷、治療、手術和併發症，並由專業耳鼻喉科醫生評估回答。結果顯示，ChatGPT-4在診斷方面表現優異，獲得滿分，而Google Gemini在治療類別中則有較多不準確的回答。整體來看，ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

Comparative Analysis of Information Quality in Pediatric Otorhinolaryngology: Clinicians, Residents, and Large Language Models.
小兒耳鼻喉科資訊品質的比較分析：臨床醫師、住院醫師與大型語言模型。 Otolaryngol Head Neck Surg 2025-03-19

這項研究評估大型語言模型（LLMs）在小兒耳鼻喉科資訊提供的有效性，並與人類醫師比較。研究中提出54個問題，詢問幾個LLMs、一名住院醫師和一位小兒ORL專家。結果顯示，LLMs在理論情境下表現接近專家，但缺乏來源透明度，且在病人中心問題上效果較差。評審者對於區分人類與AI回答的共識不佳。總體而言，LLMs在小兒ORL有輔助潛力，但仍需人類監督以改善來源透明度和溝通能力。 PubMed DOI

Evaluation of Large Language Models' Concordance With Guidelines on Olfaction.
大型語言模型與嗅覺指導方針的一致性評估。 Laryngoscope Investig Otolaryngol 2025-03-24

這項研究比較了兩個人工智慧平台，ChatGPT和Google Gemini，對於2022年國際過敏與鼻科共識聲明（ICAR-O）的準確性和一致性。研究將ICAR-O的42條指導方針轉換成問題，並分析了84個回應。結果顯示，ChatGPT的平均準確性得分為1.85，優於Gemini的1.48，且78.57%的回應與指導方針一致。雖然兩者在一致性和可信度上無顯著差異，但仍需進一步評估，以確保它們在臨床環境中的可靠性。 PubMed DOI

AI in clinical decision-making: ChatGPT-4 vs. Llama2 for otolaryngology cases.
臨床決策中的人工智慧：ChatGPT-4 與 Llama2 在耳鼻喉科案例中的比較。 Eur Arch Otorhinolaryngol 2025-04-12

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示，ChatGPT-4在82%的案例中正確診斷，優於Llama2的76%。在額外檢查建議上，ChatGPT-4的相關性為88%，Llama2則為83%。治療適當性方面，ChatGPT-4達80%，Llama2為72%。雖然兩者表現不錯，但仍有不適當建議的情況，顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

原始文章

站上相關主題文章列表