原始文章

研究發現,ChatGPT-4o在診斷眩暈時,可信度評分最高,但診斷正確率只跟資淺醫師差不多,明顯不如資深醫師。而且它的診斷答案較難閱讀。整體來說,ChatGPT-4o有輔助潛力,但診斷能力和可讀性還有待加強。 PubMed DOI


站上相關主題文章列表

研究評估了AI聊天機器人ChatGPT-4在提供耳硬化手術資訊的表現,結果顯示回答品質不一。專家使用DISCERN系統評估後發現,回答有時超出一般讀者理解範圍,且可能不完整或誤導。建議改善AI系統以提供準確易懂的資訊,並建議醫護人員監督其應用於病患教育和護理。 PubMed DOI

研究發現ChatGPT在回答本體性震顫問題上表現不錯,但專業人士間意見不一致,易讀性有待提升。建議ChatGPT提供的資訊會因對ET的認知而有所不同,未來需重視監控大型語言模型生成的健康相關內容。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4.0對AAO-HNS關於MD的FAQs回答。ChatGPT-4.0在全面性和資源質量較佳,但可讀性有問題。兩者在更全面、易讀且少誤導方面仍有進步空間。 PubMed DOI

這項研究評估了GPT-4在初級和急診護理中對脊椎問題的分診和診斷效果。研究設計了十五個臨床情境,要求GPT-4提供診斷、影像學建議及轉診需求。結果顯示,GPT-4能準確識別診斷並給出符合標準的臨床建議。雖然它有過度轉診的傾向,但這並不顯著。整體表現與主治醫師和住院醫師相當,顯示其在脊椎問題初步分診中的潛力。不過,GPT-4並非專為醫療用途設計,需注意其限制。隨著進一步訓練,這類AI可能在分診中變得更重要。 PubMed DOI

這項研究探討了ChatGPT在神經學診斷中的輔助潛力。研究人員使用神經學專家的合成數據,評估ChatGPT對各種神經疾病的診斷準確性。結果顯示,ChatGPT的準確率介於68.5%到83.83%之間,與專家神經科醫生的81.66%相當,且高於一般醫生的57.15%。這顯示人工智慧工具如ChatGPT有助於提升臨床診斷的準確性,特別是在神經學領域,未來有望改善醫療實踐和診斷過程。 PubMed DOI

這項研究評估了ChatGPT-4在住院神經科的診斷準確性,並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據,CG4為51位病人生成了初步診斷和治療計畫。結果顯示,CG4的平均得分為2.57,顧問醫師為2.75,整體成功率相近(CG4為96.1%,顧問醫師為94.1%)。雖然顧問醫師的全面診斷可能性略高,但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

這項研究評估了ChatGPT(包含GPT-3.5和GPT-4)在診斷神經眼科疾病的準確性,使用了22個病例。結果顯示,GPT-3.5的正確診斷率為59%,而GPT-4提升至82%。相比之下,兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5,顯示出其在臨床診斷上的潛力,但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

這項研究比較了 ChatGPT 和 Google Gemini 兩個大型語言模型在回答前庭康復相關問題的表現。三十位專業人士和學生參加了包含20題的前庭知識測試,結果顯示 ChatGPT 得分70%,優於 Gemini 的60%。兩者在臨床知識上表現優異,但在臨床推理方面則不佳。專家評估 ChatGPT 的回答準確性,發現45%為「全面的」,但25%完全不正確。研究建議在使用這些模型時需謹慎,並強調結合臨床專業知識的重要性,以提升病人護理。 PubMed DOI

這項研究評估了兩個人工智慧平台,ChatGPT-4 和 Claude 2,對前庭神經瘤管理資訊的品質。由19位側顱底外科醫生組成的評估小組使用醫療人工智慧品質評估問卷(QAMAI)來檢視36個問題的回答。結果顯示,ChatGPT-4在38.9%的問題上表現優於Claude 2,而Claude 2僅在5.6%的問題上得分較高。雖然ChatGPT-4在大多數方面表現較佳,但兩者在提供準確資訊上仍有困難,顯示患者使用這些工具時面臨錯誤資訊的風險。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI