原始文章

這項研究探討了ChatGPT在回答頸椎手術常見問題的準確性與可靠性。研究中對ChatGPT-3.5提出20個問題,並進行三次提問,總共獲得60個回應。三位脊椎外科醫生根據準確性和實用性評分,結果顯示平均分數為3.17,66.7%的回應被評為「中等」質量。不過,測試的可靠性較低,顯示不同提問的回應質量不一致。總體來看,ChatGPT提供的答案雖然中等,但仍需進一步研究以提升其可靠性與準確性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在回答橈骨遠端骨折問題時表現不錯,但答案缺乏一致性。對於較簡單問題,它表現較佳,但對於複雜問題則不足。建議在醫學資訊上不要全面信賴ChatGPT,需了解其潛力和限制。在醫療保健領域使用ChatGPT需謹慎。 PubMed DOI

研究評估了ChatGPT對頸椎問題病人的問答品質,平均得分7.1分,準確性4.1分,適切性1.8分,可讀性1.2分。初步可讀性為13.5年級,簡化後提升至11.2年級。雖然ChatGPT提供特定資訊潛力,但準確性和可讀性有限。外科醫生需留意,病人可能會越來越依賴此技術。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究探討了ChatGPT在回答肌肉骨骼解剖學問題的準確性和一致性。研究中向ChatGPT 3.5提出六個問題,並在四個不同時間點詢問,三位專家用5點量表評估回應。結果顯示,回應質量差異大,50%的答案被評為良好,但低質量的答案常有重大錯誤或矛盾。整體而言,ChatGPT的回應不穩定,限制了其作為學習資源的可靠性,建議查閱專業文獻以驗證信息。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

微創脊椎手術(MISS)近年來成為傳統手術的替代選擇,因其切口小、恢復快及併發症少等優勢。隨著患者在網上尋求MISS資訊,資訊的清晰度與準確性變得重要。研究發現,許多相關網頁內容的可讀性超過建議水平,讓患者難以理解。本研究評估ChatGPT對MISS常見問題的回答在臨床適宜性和可讀性方面的表現。結果顯示,雖然術前和術後問題的回答通常適宜,但手術中問題的回答有一半被認為不可靠。未來的AI工具應注重清晰溝通,並需醫療專業人員的監督。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

脊髓刺激(SCS)是一種有效的慢性疼痛治療方法,但患者常有疑問。本研究探討ChatGPT對SCS常見問題的回答在可靠性、準確性和可理解性方面的表現。研究選擇了十三個問題,並由專業醫師和非醫療人士評估。結果顯示,ChatGPT的回答在可靠性和可理解性上表現良好,準確性也達到95%。總結來說,ChatGPT可作為患者教育SCS的輔助工具,尤其在一般性問題上,但對於技術性問題則可能較為困難。 PubMed DOI

這項研究評估了ChatGPT對脊柱側彎問題的回答在可靠性、有用性、品質和可讀性方面的表現。選擇了十六個常見問題,由兩位專家評分。結果顯示,可靠性平均得分4.68,有用性得分4.84,整體品質得分4.28,評價普遍正面。雖然一般資訊的回答表現不錯,但針對治療和個人化問題的回答仍需加強。可讀性方面,回答需具備高中三年級到大學程度的閱讀能力。總體來說,ChatGPT提供的脊柱側彎資訊可靠,但在特定問題上仍需謹慎使用。 PubMed DOI

這項研究比較了AI模型(ChatGPT-3.5、ChatGPT-4和Google Bard)與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查,結果顯示醫生之間的重測信度良好,但與AI模型的協議較低。雖然AI的回應詳細,但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策,但可用於初步資訊收集和緊急分診,並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI