原始文章

研究發現,ChatGPT-4o在診斷眩暈時,可信度評分最高,但診斷正確率只跟資淺醫師差不多,明顯不如資深醫師。而且它的診斷答案較難閱讀。整體來說,ChatGPT-4o有輔助潛力,但診斷能力和可讀性還有待加強。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4在住院神經科的診斷準確性,並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據,CG4為51位病人生成了初步診斷和治療計畫。結果顯示,CG4的平均得分為2.57,顧問醫師為2.75,整體成功率相近(CG4為96.1%,顧問醫師為94.1%)。雖然顧問醫師的全面診斷可能性略高,但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

這項研究評估了ChatGPT(包含GPT-3.5和GPT-4)在診斷神經眼科疾病的準確性,使用了22個病例。結果顯示,GPT-3.5的正確診斷率為59%,而GPT-4提升至82%。相比之下,兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5,顯示出其在臨床診斷上的潛力,但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

這項研究比較了 ChatGPT 和 Google Gemini 兩個大型語言模型在回答前庭康復相關問題的表現。三十位專業人士和學生參加了包含20題的前庭知識測試,結果顯示 ChatGPT 得分70%,優於 Gemini 的60%。兩者在臨床知識上表現優異,但在臨床推理方面則不佳。專家評估 ChatGPT 的回答準確性,發現45%為「全面的」,但25%完全不正確。研究建議在使用這些模型時需謹慎,並強調結合臨床專業知識的重要性,以提升病人護理。 PubMed DOI

這項研究評估了兩個人工智慧平台,ChatGPT-4 和 Claude 2,對前庭神經瘤管理資訊的品質。由19位側顱底外科醫生組成的評估小組使用醫療人工智慧品質評估問卷(QAMAI)來檢視36個問題的回答。結果顯示,ChatGPT-4在38.9%的問題上表現優於Claude 2,而Claude 2僅在5.6%的問題上得分較高。雖然ChatGPT-4在大多數方面表現較佳,但兩者在提供準確資訊上仍有困難,顯示患者使用這些工具時面臨錯誤資訊的風險。 PubMed DOI

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性,並與專家進行比較。使用37個臨床案例,結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%,但特異度較低,特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好,但在處理模糊案例時仍有困難。相比之下,人類專家的準確性更高。研究建議未來可將AI與專家結合,以提升癲癇診斷的準確性。 PubMed DOI

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性,並與早期版本比較。研究分為兩部分,第一部分分析其與臨床醫生的診斷一致性,涉及12,922名老年人,結果顯示有一定的關聯性,但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據,未顯示顯著一致性。結論指出,雖然ChatGPT 4 Omni有潛力,但仍需改進與訓練,以提升其在臨床中的應用效果。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這項研究發現,ChatGPT-4o在回答抗憂鬱劑相關問題時,正確率跟有經驗的精神科醫師一樣高,回答也比較精簡,易讀性差不多。不過,醫師的說明還是比較清楚。雖然ChatGPT-4o有潛力協助病人衛教,但臨床專業還是不可取代的。 PubMed DOI

這項研究比較了三種ChatGPT版本在回答幽門螺旋桿菌相關問題的表現。結果顯示,ChatGPT-4o答得最準確但穩定性較差,3.5版則最穩定但偶有錯誤。整體來說,AI聊天機器人能有效協助病患衛教,也能幫醫師提供可靠醫療資訊。 PubMed DOI