Evaluating ChatGPT-4's performance as a digital health advisor for otosclerosis surgery.
評估 ChatGPT-4 作為骨盆硬化手術數位健康顧問的表現。 Front Surg 2024-06-21

研究評估了AI聊天機器人ChatGPT-4在提供耳硬化手術資訊的表現，結果顯示回答品質不一。專家使用DISCERN系統評估後發現，回答有時超出一般讀者理解範圍，且可能不完整或誤導。建議改善AI系統以提供準確易懂的資訊，並建議醫護人員監督其應用於病患教育和護理。 PubMed DOI

Comparative Performance of ChatGPT 3.5 and GPT4 on Rhinology Standardized Board Examination Questions.
ChatGPT 3.5 和 GPT4 在鼻科標準化考試問題上的比較表現。 OTO Open 2024-06-28

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現，並與住院醫師做了對比。結果顯示，GPT4在文本和圖像問題上表現優異，而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力，展現了人工智慧未來在這領域的重要性。 PubMed DOI

Examining the Performance of ChatGPT 3.5 and Microsoft Copilot in Otolaryngology: A Comparative Study with Otolaryngologists' Evaluation.
檢視 ChatGPT 3.5 和 Microsoft Copilot 在耳鼻喉科的表現：與耳鼻喉科醫師評估的比較研究。 Indian J Otolaryngol Head Neck Surg 2024-08-12

一項研究評估了ChatGPT 3.5和連接網路的GPT-4（Microsoft Copilot）在公共醫療系統耳鼻喉科考試中的表現，共發放135道問題。結果顯示，GPT-4的得分為88.5分，明顯優於ChatGPT的60分，且Copilot在108名耳鼻喉科醫生中排名第二，而ChatGPT則排在第83位。整體來看，具網路連接的GPT-4在回答醫學多選題方面表現更佳。 PubMed DOI

Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育：生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。 Cureus 2024-08-12

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現，分析了1,077道文字題和60道圖片題。結果顯示，GPT-4的表現最佳，得分78.7%，而ChatGPT和Bard分別為55.3%和61.7%（p<0.001）。所有模型在簡單問題上表現較好，GPT-4在各子專科得分也較高，僅過敏科差異不顯著。雖然GPT-4表現良好，但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

Is ChatGPT 3.5 smarter than Otolaryngology trainees? A comparison study of board style exam questions.
ChatGPT 3.5 是否比耳鼻喉科實習生更聰明？一項關於考試題型的比較研究。 PLoS One 2024-09-26

這項研究評估了ChatGPT在考試中的表現，並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題，結果顯示ChatGPT的表現超過了第一到第三年的醫學生，但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好，但在臨床推理和解決複雜問題的能力上，仍無法與高年級實習生相比，顯示其臨床應用的限制。 PubMed DOI

AI in clinical decision-making: ChatGPT-4 vs. Llama2 for otolaryngology cases.
臨床決策中的人工智慧：ChatGPT-4 與 Llama2 在耳鼻喉科案例中的比較。 Eur Arch Otorhinolaryngol 2025-04-12

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示，ChatGPT-4在82%的案例中正確診斷，優於Llama2的76%。在額外檢查建議上，ChatGPT-4的相關性為88%，Llama2則為83%。治療適當性方面，ChatGPT-4達80%，Llama2為72%。雖然兩者表現不錯，但仍有不適當建議的情況，顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

DeepSeek Versus GPT: Evaluation of Large Language Model Chatbots' Responses on Orofacial Clefts.
DeepSeek 與 GPT：大型語言模型聊天機器人在口腔顏面裂隙相關問題回應的評估 J Craniofac Surg 2025-04-17

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現，Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳，但GPT o1-preview在展現同理心方面較突出。兩者各有優勢，未來醫療用AI應結合準確性與同理心，才能提供更完善的病患諮詢服務。 PubMed DOI

DeepSeekTM and lacrimal drainage disorders: hype or is it performing better than ChatGPTTM?
DeepSeekTM 與淚道疾病：炒作還是真比 ChatGPTTM 表現更好？ Orbit 2025-05-08

這項研究比較 DeepSeek™ 和 ChatGPT™ 在回答淚道疾病問題的表現，發現兩者正確率相近（DeepSeek™ 60%、ChatGPT™ 56%），都很少出現錯誤，也能自我修正。新版 ChatGPT™ 表現比舊版更好。整體來說，DeepSeek™ 和 ChatGPT™ 差不多，各有優勢，但若要應用在醫療領域，還需要更多專業訓練。 PubMed DOI

Comparative evaluation of responses from DeepSeek-R1, ChatGPT-o1, ChatGPT-4, and dental GPT chatbots to patient inquiries about dental and maxillofacial prostheses.
DeepSeek-R1、ChatGPT-o1、ChatGPT-4 及牙科 GPT 聊天機器人對於患者有關牙科與顎面修復體詢問之回應的比較評估 BMC Oral Health 2025-05-31

這項研究比較四款AI聊天機器人回答牙科相關問題的表現，發現Dental GPT最準確，DeepSeek-R1最容易閱讀，但整體在品質和易懂度上差異不大。研究提醒，AI在醫療領域應謹慎使用，避免錯誤資訊影響病人。 PubMed DOI

Evaluating Artificial Intelligence in Patient Education: DeepSeek-V3 Versus ChatGPT-4o in Answering Common Questions on Laparoscopic Cholecystectomy.
人工智慧於病患衛教中的評估：DeepSeek-V3 與 ChatGPT-4o 在回答腹腔鏡膽囊切除術常見問題之比較 ANZ J Surg 2025-06-11

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後，發現DeepSeek-V3在適切性、正確性和易讀性都勝出，顯示它在這類病人衛教上可能更有優勢。 PubMed DOI

原始文章

站上相關主題文章列表