Reliability of large language models for advanced head and neck malignancies management: a comparison between ChatGPT 4 and Gemini Advanced.
大型語言模型在進階頭頸部惡性腫瘤管理中的可靠性：ChatGPT 4 與 Gemini Advanced 的比較。 Eur Arch Otorhinolaryngol 2024-05-25

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現，發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯，但仍有改進空間。研究強調持續更新和驗證的重要性，以更好整合人工智慧到醫療實務。 PubMed DOI

Feasibility of Multimodal Artificial Intelligence Using GPT-4 Vision for the Classification of Middle Ear Disease: Qualitative Study and Validation.
使用 GPT-4 Vision 多模式人工智慧進行中耳疾病分類的可行性：定性研究與驗證。 JMIR AI 2024-06-14

人工智慧（AI）在醫學領域，特別是耳鼻喉科，有重要影響。GPT-4 Vision（GPT-4V）結合語言處理與影像分析，提高中耳疾病診斷效率。研究顯示多模態AI方法在影像分類上表現優異，但仍需進一步優化。儘管有潛力幫助臨床決策，仍需解決數據隱私和倫理挑戰。多模態AI有助於提升耳鼻喉科診斷和病人護理，值得進一步研究。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育：生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。 Cureus 2024-08-12

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現，分析了1,077道文字題和60道圖片題。結果顯示，GPT-4的表現最佳，得分78.7%，而ChatGPT和Bard分別為55.3%和61.7%（p<0.001）。所有模型在簡單問題上表現較好，GPT-4在各子專科得分也較高，僅過敏科差異不顯著。雖然GPT-4表現良好，但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

Comparing Vision-Capable Models, GPT-4 and Gemini, With GPT-3.5 on Taiwan's Pulmonologist Exam.
比較具視覺能力的模型 GPT-4 和 Gemini 與 GPT-3.5 在台灣肺科醫師考試中的表現。 Cureus 2024-08-26

這項研究評估了先進大型語言模型（LLMs）在醫學考試中的視覺能力，特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試（肺部與重症醫學）的表現，並以僅處理文本的GPT-3.5為基準。結果顯示，GPT-4的表現持續優於Gemini和GPT-3.5，經常超過60的及格門檻，接近人類考生的水準。相對而言，Gemini的表現較低，而GPT-3.5得分最低，顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

Gemini AI vs. ChatGPT: A comprehensive examination alongside ophthalmology residents in medical knowledge.
Gemini AI 與 ChatGPT：與眼科住院醫師在醫學知識上的全面比較。 Graefes Arch Clin Exp Ophthalmol 2024-09-15

這項研究探討了先進的人工智慧模型，特別是ChatGPT和Google的Gemini AI，在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現，使用了600道來自以色列住院醫師考試的問題。結果顯示，Gemini Advanced的準確率最高，達66%，其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色，並指出需要進一步改進，以提升其在不同子專科的有效性，對改善病人護理具有潛力。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

The use of ChatGPT and Google Gemini in responding to orthognathic surgery-related questions: A comparative study.
ChatGPT 與 Google Gemini 在回答正顎手術相關問題中的應用：一項比較研究。 J World Fed Orthod 2024-11-03

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性，使用定量分析方法。研究團隊設計了64個問題的問卷，並由兩位專家評估這三個AI的回應。結果顯示，雖然ChatGPT-3.5的可靠性得分最高，但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異，這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

Accuracy of ChatGPT 3.5, 4.0, 4o and Gemini in diagnosing oral potentially malignant lesions based on clinical case reports and image recognition.
基於臨床案例報告和影像識別，ChatGPT 3.5、4.0、4o 和 Gemini 在診斷口腔潛在惡性病變的準確性。 Med Oral Patol Oral Cir Bucal 2025-01-26

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變（OPMLs）的準確性，特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示，GPT 4o在文本診斷中表現最佳，正確回答27個案例，其次是GPT 4.0、3.5和Gemini。在影像識別方面，GPT 4o也優於Gemini。不過，這些模型的準確性仍未達到專家水平，顯示出中等到良好的協議程度。研究指出，雖然人工智慧在診斷OPMLs上有潛力，但整合進臨床實踐時需謹慎。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

原始文章

站上相關主題文章列表