原始文章

這項研究比較了AI模型(ChatGPT-3.5、ChatGPT-4和Google Bard)與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查,結果顯示醫生之間的重測信度良好,但與AI模型的協議較低。雖然AI的回應詳細,但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策,但可用於初步資訊收集和緊急分診,並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI


站上相關主題文章列表

研究比較三種人工智慧工具在骨科臨床決策上的表現,發現ChatGPT 4與人類回應最一致。然而在爭議案例中,人工智慧工具表現較不準確,顯示仍有改進空間。在臨床應用上需謹慎整合,未來研究應專注於開發專用臨床人工智慧工具以提升效能。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究探討了AI語言模型ChatGPT在診斷和管理前肩不穩定性,以及預防小兒脊椎手術感染方面,與骨科醫生的可靠性比較。結果顯示,ChatGPT在14個陳述上與專家意見有合理相關性,但同意程度較低。特別是在紫外線使用的陳述上,ChatGPT的回應與專家不一致,可能因為新文獻影響。總體來看,ChatGPT在簡單問題上準確性尚可,但面對複雜問題時限制明顯。這項研究強調了評估AI在臨床環境中可靠性的重要性。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Claude,在脊椎病理的外科決策及放射影像解讀的有效性,並與經驗豐富的脊椎外科醫生進行比較。結果顯示,雖然LLMs能詳細描述MRI影像,但在準確識別病變及外科決策上表現不佳,準確率僅20%,遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力,但需進一步發展以克服現有限制,並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

人工智慧(AI)如ChatGPT-4正在改變醫療保健,特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現,並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示,ChatGPT的建議在73%的案例中與醫生一致,但多數建議偏向一般性,缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制,未來需進一步研究以提升其應用效果。 PubMed DOI

這項研究探討了ChatGPT在回答頸椎手術常見問題的準確性與可靠性。研究中對ChatGPT-3.5提出20個問題,並進行三次提問,總共獲得60個回應。三位脊椎外科醫生根據準確性和實用性評分,結果顯示平均分數為3.17,66.7%的回應被評為「中等」質量。不過,測試的可靠性較低,顯示不同提問的回應質量不一致。總體來看,ChatGPT提供的答案雖然中等,但仍需進一步研究以提升其可靠性與準確性。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現,並與四位專科醫生進行比較。研究涵蓋20個問題,涉及診斷、管理及病人諮詢等方面。結果顯示,AI在回應的完整性、幫助性和質量上均優於人類醫生,且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上,AI表現尤為出色。整體而言,AI在急診骨科諮詢中展現出高質量建議的潛力,未來可望增強臨床決策。 PubMed DOI