原始文章

這項研究評估了生成式人工智慧工具在脊椎治療查詢中的可靠性,並將其回應與北美脊椎學會的指導方針進行比較。結果顯示,兩個工具的平均一致性得分為3.5分(滿分5分),顯示出可接受的準確性。不過,這些工具生成的254個參考文獻中,有24%是虛構的,這引發了臨床應用的擔憂。研究強調,雖然這些工具能提供有用資訊,但在臨床使用時需謹慎,以避免錯誤資訊的風險。 PubMed DOI


站上相關主題文章列表

研究發現,病患在Bing搜尋脊椎手術資訊時,大多數回答都準確完整,且錯誤會被更正。商業來源常見,政府來源評分最高。研究強調需持續評估改進大型語言模型,以提供病患可靠網路資訊。 PubMed DOI

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育,例如腰椎間盤突出。研究發現,這些AI回答腰椎間盤突出的問題時,準確性和清晰度有差異,需要改進。未來應該專注於提升AI模型,以增進患者和醫師之間的溝通。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究探討了生成式人工智慧,特別是ChatGPT,對骨科文獻的影響,分析了AI生成文章的普遍性、AI檢測器的準確性,以及文章特徵與被判定為AI生成的可能性之間的關係。研究分析了240篇2023年後的骨科期刊文章,並發現AI檢測器能有效識別AI生成內容,但有些檢測器表現不佳。雖然AI生成文本的比例略有增加,但與期刊、文章類型或提交時間等因素並無一致關聯。結論強調需謹慎監督以維護研究完整性,並進一步發展AI檢測工具。 PubMed DOI

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題,結果顯示Perplexity的符合率最高,達69.2%,而ChatGPT 4o最低,僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高,顯示出理解上的困難。研究強調,雖然AI能協助臨床,但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

這項研究比較了OpenAI的GPT-4和Google的Gemini Ultra在生成醫學研究引言的表現,特別是引用的準確性。結果顯示,Gemini在引用精確度上優於GPT-4,正確率分別為77.2%和54.0%。雖然GPT-4生成的引言較長,但包含更多未引用的信息。儘管Gemini表現較佳,兩者仍生成虛構證據,讓人對其學術可靠性產生疑慮。這強調了驗證AI生成內容的重要性,並建議進一步研究AI在科學寫作中的能力與限制。 PubMed DOI

這項研究評估了兩個AI平台(Gemini和ChatGPT)對手部和手腕手術常見問題的回答質量。共提出12個問題,分析48個回答,使用三種評分工具進行評估。結果顯示,回答的平均分數為55.7(良好)、57.2%(足夠)和4.4。手腕相關問題的回答質量顯著高於手部問題,且Gemini在評分上優於ChatGPT。雖然AI的回答通常被評為良好,但質量因平台和問題類型而異,了解這些差異對病人尋求資訊至關重要。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

這項研究比較了AI模型(ChatGPT-3.5、ChatGPT-4和Google Bard)與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查,結果顯示醫生之間的重測信度良好,但與AI模型的協議較低。雖然AI的回應詳細,但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策,但可用於初步資訊收集和緊急分診,並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI