ChatGPT as an information tool in rhinology. Can we trust each other today?
ChatGPT作為鼻科學信息工具。我們今天可以信任對方嗎？ Eur Arch Otorhinolaryngol 2024-03-04

研究評估ChatGPT在鼻科病理學資訊的品質和可靠性，提出65問題探討病因、風險、治療、預後。使用Discern問卷和Fleiss's Kappa分析，整體品質得分為3.59，可靠性較低為3.18，一致性為0.69。研究認為ChatGPT回答準確可靠，提供易懂描述，建議在專業監督下可成為有用工具。 PubMed DOI

Evaluation of Rhinoplasty Information from ChatGPT, Gemini, and Claude for Readability and Accuracy.
對於 ChatGPT、Gemini 和 Claude 的鼻整形資訊進行可讀性和準確性的評估。 Aesthetic Plast Surg 2024-09-16

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示，ChatGPT在準確性和整體質量上表現較佳，但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整，醫學術語使用普遍，且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查，但仍具提升醫療教育的潛力。 PubMed DOI

Evaluating ChatGPT as a Patient Education Tool for COVID-19-Induced Olfactory Dysfunction.
評估 ChatGPT 作為 COVID-19 引起的嗅覺功能障礙的病人教育工具。 OTO Open 2024-09-17

這項研究評估了ChatGPT對COVID-19引起的嗅覺功能障礙的回應質量。使用30個相同問題，並在四種不同提示下詢問ChatGPT，結果顯示480個回應中有75.8%被評為「至少良好」。不同提示類型影響回應質量，針對八年級學生和患者的回應更易理解。總體來看，ChatGPT的答案大多準確，但表述方式會影響回應的質量和複雜性。研究認為，ChatGPT在患者教育上有潛力，但回應常過於複雜。 PubMed DOI

Artificial intelligence versus clinical judgement: how accurately do generative models reflect CNS guidelines for chiari malformation?
人工智慧與臨床判斷：生成模型在 Chiari malformation 中對中樞神經系統指導方針的反映準確性如何？ Clin Neurol Neurosurg 2024-11-29

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題，結果顯示Perplexity的符合率最高，達69.2%，而ChatGPT 4o最低，僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高，顯示出理解上的困難。研究強調，雖然AI能協助臨床，但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

From open-ended to multiple-choice: evaluating diagnostic performance and consistency of ChatGPT, Google Gemini and Claude AI.
從開放式問題到選擇題：評估 ChatGPT、Google Gemini 和 Claude AI 的診斷表現與一致性。 Wiad Lek 2024-12-11

這項研究評估了四種大型語言模型（LLMs）在根據臨床案例診斷疾病的表現，包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段，第一階段僅使用案例描述，第二階段則加入答案選項。結果顯示，Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好，但Google Gemini的效能較低，需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

Analyzing the Effectiveness of AI-Generated Patient Education Materials: A Comparative Study of ChatGPT and Google Gemini.
分析 AI 生成的病患教育材料的有效性：ChatGPT 與 Google Gemini 的比較研究。 Cureus 2024-12-26

這項研究比較了ChatGPT和Google Gemini生成的病患教育指南，主題包括MRI檢查、乳房攝影篩檢及MR環境中的物品安全性。研究發現，ChatGPT的平均字數和句子數都高於Google Gemini，但可讀性分數顯示ChatGPT的內容更易讀。相似性分數方面，ChatGPT的分數較低，顯示其內容與現有文本的相似度較低。整體來看，雖然兩者在可靠性上相似，但在可讀性和相似性上有所不同。 PubMed DOI

Evaluation of the Usability of ChatGPT-4 and Google Gemini in Patient Education About Rhinosinusitis.
關於鼻竇炎患者教育中 ChatGPT-4 和 Google Gemini 可用性的評估。 Clin Otolaryngol 2025-01-08

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題，涵蓋一般知識、診斷、治療、手術和併發症，並由專業耳鼻喉科醫生評估回答。結果顯示，ChatGPT-4在診斷方面表現優異，獲得滿分，而Google Gemini在治療類別中則有較多不準確的回答。整體來看，ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

Assessing adult sinusitis guidelines: A comparative analysis of AAO-HNS and AI Chatbots.
評估成人鼻竇炎指導方針：AAO-HNS 與 AI 聊天機器人的比較分析。 Am J Otolaryngol 2025-01-30

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示，準確性差異明顯：Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少，但Llama 2的未完整回應率最高，達40%。整體來看，這些聊天機器人的表現未達臨床指導標準，未來需加強準確性和完整性。 PubMed DOI

Comparative Analysis of Artificial Intelligence Platforms in Generating Post-Operative Instructions for Rhinologic Surgery.
鼻科手術後指示生成中人工智慧平台的比較分析。 Indian J Otolaryngol Head Neck Surg 2025-03-11

隨著像ChatGPT和Google Gemini等AI平台的快速發展，這些工具在醫療資訊，特別是術後指導方面的使用逐漸增加。一項研究比較了這些AI系統在為接受內窺鏡鼻竇手術的病人提供術後指導的有效性。雖然AI生成的內容能被理解，但在可行性和可讀性上仍有不足，顯示病人在尋求術後指導時需謹慎考量這些限制，並強調對AI醫療資訊進行仔細評估的重要性，以確保病人的安全與最佳結果。 PubMed DOI

ChatGPT performance on 120 interdisciplinary allergology questions - systematic evaluation with clinical error impact assessment for critical erroneous AI-guided chatbot-advice.
ChatGPT 在 120 個跨學科過敏學問題上的表現 - 針對關鍵錯誤的 AI 指導聊天機器人建議進行系統評估與臨床錯誤影響評估。 J Allergy Clin Immunol Pract 2025-03-29

這項研究評估了ChatGPT在回答過敏學問題的表現，顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估，結果顯示ChatGPT的整體準確性不錯（平均4.1分），但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤，可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性，並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境，可能會提升其臨床有效性。 PubMed DOI

原始文章

站上相關主題文章列表