原始文章

這項研究比較了AI模型(ChatGPT-3.5、ChatGPT-4和Google Bard)與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查,結果顯示醫生之間的重測信度良好,但與AI模型的協議較低。雖然AI的回應詳細,但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策,但可用於初步資訊收集和緊急分診,並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI


站上相關主題文章列表

人工智慧(AI)如ChatGPT-4正在改變醫療保健,特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現,並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示,ChatGPT的建議在73%的案例中與醫生一致,但多數建議偏向一般性,缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制,未來需進一步研究以提升其應用效果。 PubMed DOI

這項研究強調了人工智慧,特別是GPT-4模型,在腰椎融合手術的證據基礎醫學指導方針中的應用潛力。根據報導,北美脊椎學會成員的符合率僅為60%。研究使用17個臨床案例評估GPT-4的表現,結果顯示其在88.2%的案例中與指導方針一致,顯示出顯著的關聯性。此外,GPT-4的回答互查可靠性也顯示出良好的協議。這表明GPT-4等人工智慧模型可能成為提升脊椎手術臨床指導遵循的重要工具,並有助於改善病人治療結果。 PubMed DOI

這項研究探討了ChatGPT在回答頸椎手術常見問題的準確性與可靠性。研究中對ChatGPT-3.5提出20個問題,並進行三次提問,總共獲得60個回應。三位脊椎外科醫生根據準確性和實用性評分,結果顯示平均分數為3.17,66.7%的回應被評為「中等」質量。不過,測試的可靠性較低,顯示不同提問的回應質量不一致。總體來看,ChatGPT提供的答案雖然中等,但仍需進一步研究以提升其可靠性與準確性。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現,並與四位專科醫生進行比較。研究涵蓋20個問題,涉及診斷、管理及病人諮詢等方面。結果顯示,AI在回應的完整性、幫助性和質量上均優於人類醫生,且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上,AI表現尤為出色。整體而言,AI在急診骨科諮詢中展現出高質量建議的潛力,未來可望增強臨床決策。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究發現,ChatGPT在判斷疑似馬尾症候群(CES)是否需緊急手術時,和脊椎多專科團隊有88.7%的高一致率。雖然ChatGPT有時較常建議手術,但差異不顯著。專家之間本身也有意見分歧。整體來說,ChatGPT未來有機會成為急診CES決策的輔助工具,但還需要更多驗證。 PubMed DOI