原始文章

這項研究評估了ChatGPT在提供慢性鼻竇炎(CRS)資訊的有效性,並與醫療指導方針進行比較。研究中提出六個CRS相關問題,結果顯示ChatGPT的回答大致符合現有文獻,但仍有不一致之處。可讀性測試顯示資訊複雜度不同,平均可讀性分數為40.42%。雖然各類別之間可讀性無顯著差異,研究建議ChatGPT可作為醫療資訊的資源,但使用者需謹慎對待其準確性。最後以4級證據評級顯示中等可靠性。 PubMed DOI


站上相關主題文章列表

研究比對醫療建議與ChatGPT對治療鼻竇炎與鼻息肉的建議,結果顯示兩者一致率為68%,Kappa係數為0.69,顯示ChatGPT在指導治療上有潛力。研究強調了人工智慧如ChatGPT對協助醫師提供患者個人化護理的重要性。 PubMed DOI

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題,涵蓋一般知識、診斷、治療、手術和併發症,並由專業耳鼻喉科醫生評估回答。結果顯示,ChatGPT-4在診斷方面表現優異,獲得滿分,而Google Gemini在治療類別中則有較多不準確的回答。整體來看,ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

這項研究評估了ChatGPT對常見鼻科問題的回答準確性,並與專業外科醫師的回答進行比較。ChatGPT的平均得分為1.65分(滿分3分),顯示部分回答可接受,但多數不正確或不完整。10個問題中,只有2個回答與專家一致,8個則被認為不足。評分者之間的可靠性中等,且能以97.5%的準確率區分ChatGPT和人類回答。這些結果顯示ChatGPT在醫學領域提供準確資訊的能力有限。 PubMed DOI

這項研究比較了四款AI聊天機器人—ChatGPT-3.5、ChatGPT-4.0、Bard和Llama 2—在遵循美國耳鼻喉科醫學會的成人鼻竇炎指導方針方面的表現。結果顯示,準確性差異明顯:Llama 2 80%、Bard 83.3%、ChatGPT-4.0 80%和ChatGPT-3.5 73.3%。雖然過於結論性的回應較少,但Llama 2的未完整回應率最高,達40%。整體來看,這些聊天機器人的表現未達臨床指導標準,未來需加強準確性和完整性。 PubMed DOI

生成式 AI 工具如 ChatGPT 在醫療查詢中越來越受歡迎,特別是在解答髕腱病相關問題上。一項研究評估了 ChatGPT-4 的表現,收集了 48 個問題並由專家評估其回應。結果顯示,只有 33% 的回應準確,但 75% 是全面的。治療相關問題的準確率僅 17%。回應的可讀性達到大學水平,且可理解性良好(83%),但可行性較低(60%)。總體而言,ChatGPT-4 提供了豐富資訊,但準確性不足,且對於低學歷者不易理解。 PubMed DOI

本研究探討ChatGPT在唇裂修復方面的回應質量與準確性,因為大型語言模型在健康資訊傳播中越來越常見。研究選取十個常見問題,並由五位整形外科醫師評估其內容質量、清晰度、相關性和可信度。結果顯示,ChatGPT的平均評分為2.9分,清晰度和內容質量較高,但可信度較低。可讀性適合約10年級學生。雖然回應中無明顯不準確或有害資訊,但缺乏引用來源,使用者需注意其局限性。 PubMed DOI

這項研究評估了ChatGPT在回答過敏學問題的表現,顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估,結果顯示ChatGPT的整體準確性不錯(平均4.1分),但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤,可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性,並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境,可能會提升其臨床有效性。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究評估了手部手術相關的線上醫療資訊,並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。 主要發現包括: 1. **可讀性**:Google的回應較易讀,平均在八年級水平,而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**:ChatGPT-4的可靠性與3.5相似,但低共識主題的可讀性較低,準確性差異不大。 3. **覆蓋範圍**:ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同,但在解剖學和病理生理學上相似。 總結來說,雖然ChatGPT能提供可靠的醫療資訊,但可讀性較差,醫療提供者需注意其局限性。 PubMed DOI