原始文章

這項研究比較了兩個人工智慧平台,ChatGPT和Google Gemini,對於2022年國際過敏與鼻科共識聲明(ICAR-O)的準確性和一致性。研究將ICAR-O的42條指導方針轉換成問題,並分析了84個回應。結果顯示,ChatGPT的平均準確性得分為1.85,優於Gemini的1.48,且78.57%的回應與指導方針一致。雖然兩者在一致性和可信度上無顯著差異,但仍需進一步評估,以確保它們在臨床環境中的可靠性。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題,涵蓋一般知識、診斷、治療、手術和併發症,並由專業耳鼻喉科醫生評估回答。結果顯示,ChatGPT-4在診斷方面表現優異,獲得滿分,而Google Gemini在治療類別中則有較多不準確的回答。整體來看,ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示,準確性差異明顯:Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少,但Llama 2的未完整回應率最高,達40%。整體來看,這些聊天機器人的表現未達臨床指導標準,未來需加強準確性和完整性。 PubMed DOI

這項研究比較了 ChatGPT 和 Google Gemini 兩個大型語言模型在回答前庭康復相關問題的表現。三十位專業人士和學生參加了包含20題的前庭知識測試,結果顯示 ChatGPT 得分70%,優於 Gemini 的60%。兩者在臨床知識上表現優異,但在臨床推理方面則不佳。專家評估 ChatGPT 的回答準確性,發現45%為「全面的」,但25%完全不正確。研究建議在使用這些模型時需謹慎,並強調結合臨床專業知識的重要性,以提升病人護理。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

隨著像ChatGPT和Google Gemini等AI平台的快速發展,這些工具在醫療資訊,特別是術後指導方面的使用逐漸增加。一項研究比較了這些AI系統在為接受內窺鏡鼻竇手術的病人提供術後指導的有效性。雖然AI生成的內容能被理解,但在可行性和可讀性上仍有不足,顯示病人在尋求術後指導時需謹慎考量這些限制,並強調對AI醫療資訊進行仔細評估的重要性,以確保病人的安全與最佳結果。 PubMed DOI

這項研究評估了ChatGPT在回答過敏學問題的表現,顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估,結果顯示ChatGPT的整體準確性不錯(平均4.1分),但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤,可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性,並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境,可能會提升其臨床有效性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 和 Google Gemini,在解讀小兒耳鼻喉科指導方針的表現。評審使用李克特量表對模型的準確性和完整性進行打分,結果顯示兩者都表現良好,GPT-4 準確性為 4.74,Google Gemini 則為 4.82。雖然兩者在準確性和完整性上沒有顯著差異,但都強調了個別化需求和醫療專業諮詢的重要性。研究指出這些模型在小兒耳鼻喉科的輔助潛力,並強調持續改進的必要性,AI 應輔助而非取代人類專業知識。 PubMed DOI

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示,ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分,平均3.98/4,特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說,ChatGPT目前最可靠,但所有AI還需進一步改進和臨床驗證。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI