原始文章

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI


站上相關主題文章列表

研究評估了AI聊天機器人ChatGPT-4在提供耳硬化手術資訊的表現,結果顯示回答品質不一。專家使用DISCERN系統評估後發現,回答有時超出一般讀者理解範圍,且可能不完整或誤導。建議改善AI系統以提供準確易懂的資訊,並建議醫護人員監督其應用於病患教育和護理。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

一項研究評估了ChatGPT 3.5和連接網路的GPT-4(Microsoft Copilot)在公共醫療系統耳鼻喉科考試中的表現,共發放135道問題。結果顯示,GPT-4的得分為88.5分,明顯優於ChatGPT的60分,且Copilot在108名耳鼻喉科醫生中排名第二,而ChatGPT則排在第83位。整體來看,具網路連接的GPT-4在回答醫學多選題方面表現更佳。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

這項研究評估了ChatGPT在考試中的表現,並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題,結果顯示ChatGPT的表現超過了第一到第三年的醫學生,但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好,但在臨床推理和解決複雜問題的能力上,仍無法與高年級實習生相比,顯示其臨床應用的限制。 PubMed DOI

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究比較 DeepSeek™ 和 ChatGPT™ 在回答淚道疾病問題的表現,發現兩者正確率相近(DeepSeek™ 60%、ChatGPT™ 56%),都很少出現錯誤,也能自我修正。新版 ChatGPT™ 表現比舊版更好。整體來說,DeepSeek™ 和 ChatGPT™ 差不多,各有優勢,但若要應用在醫療領域,還需要更多專業訓練。 PubMed DOI

這項研究比較四款AI聊天機器人回答牙科相關問題的表現,發現Dental GPT最準確,DeepSeek-R1最容易閱讀,但整體在品質和易懂度上差異不大。研究提醒,AI在醫療領域應謹慎使用,避免錯誤資訊影響病人。 PubMed DOI

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後,發現DeepSeek-V3在適切性、正確性和易讀性都勝出,顯示它在這類病人衛教上可能更有優勢。 PubMed DOI