原始文章

這項研究比較了兩個人工智慧平台,ChatGPT和Google Gemini,對於2022年國際過敏與鼻科共識聲明(ICAR-O)的準確性和一致性。研究將ICAR-O的42條指導方針轉換成問題,並分析了84個回應。結果顯示,ChatGPT的平均準確性得分為1.85,優於Gemini的1.48,且78.57%的回應與指導方針一致。雖然兩者在一致性和可信度上無顯著差異,但仍需進一步評估,以確保它們在臨床環境中的可靠性。 PubMed DOI


站上相關主題文章列表

研究評估ChatGPT在鼻科病理學資訊的品質和可靠性,提出65問題探討病因、風險、治療、預後。使用Discern問卷和Fleiss's Kappa分析,整體品質得分為3.59,可靠性較低為3.18,一致性為0.69。研究認為ChatGPT回答準確可靠,提供易懂描述,建議在專業監督下可成為有用工具。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示,ChatGPT在準確性和整體質量上表現較佳,但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整,醫學術語使用普遍,且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查,但仍具提升醫療教育的潛力。 PubMed DOI

這項研究評估了ChatGPT對COVID-19引起的嗅覺功能障礙的回應質量。使用30個相同問題,並在四種不同提示下詢問ChatGPT,結果顯示480個回應中有75.8%被評為「至少良好」。不同提示類型影響回應質量,針對八年級學生和患者的回應更易理解。總體來看,ChatGPT的答案大多準確,但表述方式會影響回應的質量和複雜性。研究認為,ChatGPT在患者教育上有潛力,但回應常過於複雜。 PubMed DOI

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題,結果顯示Perplexity的符合率最高,達69.2%,而ChatGPT 4o最低,僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高,顯示出理解上的困難。研究強調,雖然AI能協助臨床,但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究比較了ChatGPT和Google Gemini生成的病患教育指南,主題包括MRI檢查、乳房攝影篩檢及MR環境中的物品安全性。研究發現,ChatGPT的平均字數和句子數都高於Google Gemini,但可讀性分數顯示ChatGPT的內容更易讀。相似性分數方面,ChatGPT的分數較低,顯示其內容與現有文本的相似度較低。整體來看,雖然兩者在可靠性上相似,但在可讀性和相似性上有所不同。 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題,涵蓋一般知識、診斷、治療、手術和併發症,並由專業耳鼻喉科醫生評估回答。結果顯示,ChatGPT-4在診斷方面表現優異,獲得滿分,而Google Gemini在治療類別中則有較多不準確的回答。整體來看,ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示,準確性差異明顯:Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少,但Llama 2的未完整回應率最高,達40%。整體來看,這些聊天機器人的表現未達臨床指導標準,未來需加強準確性和完整性。 PubMed DOI

隨著像ChatGPT和Google Gemini等AI平台的快速發展,這些工具在醫療資訊,特別是術後指導方面的使用逐漸增加。一項研究比較了這些AI系統在為接受內窺鏡鼻竇手術的病人提供術後指導的有效性。雖然AI生成的內容能被理解,但在可行性和可讀性上仍有不足,顯示病人在尋求術後指導時需謹慎考量這些限制,並強調對AI醫療資訊進行仔細評估的重要性,以確保病人的安全與最佳結果。 PubMed DOI

這項研究評估了ChatGPT在回答過敏學問題的表現,顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估,結果顯示ChatGPT的整體準確性不錯(平均4.1分),但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤,可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性,並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境,可能會提升其臨床有效性。 PubMed DOI