原始文章

這項研究評估了生成式人工智慧工具在脊椎治療查詢中的可靠性,並將其回應與北美脊椎學會的指導方針進行比較。結果顯示,兩個工具的平均一致性得分為3.5分(滿分5分),顯示出可接受的準確性。不過,這些工具生成的254個參考文獻中,有24%是虛構的,這引發了臨床應用的擔憂。研究強調,雖然這些工具能提供有用資訊,但在臨床使用時需謹慎,以避免錯誤資訊的風險。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個AI平台(Gemini和ChatGPT)對手部和手腕手術常見問題的回答質量。共提出12個問題,分析48個回答,使用三種評分工具進行評估。結果顯示,回答的平均分數為55.7(良好)、57.2%(足夠)和4.4。手腕相關問題的回答質量顯著高於手部問題,且Gemini在評分上優於ChatGPT。雖然AI的回答通常被評為良好,但質量因平台和問題類型而異,了解這些差異對病人尋求資訊至關重要。 PubMed DOI

這項研究強調了人工智慧,特別是GPT-4模型,在腰椎融合手術的證據基礎醫學指導方針中的應用潛力。根據報導,北美脊椎學會成員的符合率僅為60%。研究使用17個臨床案例評估GPT-4的表現,結果顯示其在88.2%的案例中與指導方針一致,顯示出顯著的關聯性。此外,GPT-4的回答互查可靠性也顯示出良好的協議。這表明GPT-4等人工智慧模型可能成為提升脊椎手術臨床指導遵循的重要工具,並有助於改善病人治療結果。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

人工智慧(AI)在醫療保健中越來越重要,主要分為生成式AI和非生成式AI。生成式AI透過分析數據創造新資訊,能生成合成醫學影像和改善手術模擬;而非生成式AI則專注於分析現有數據,幫助預測手術結果和評估病人風險。雖然生成式AI提供創新工具,但非生成式AI在提升病人護理上更具優勢。兩者都能提高臨床效率,但仍面臨偏見、解釋困難及倫理監管等挑戰,醫療人員需了解其能力與限制。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會(CNS)指導方針的一致性。共設計36個問題,分為治療性、診斷性和臨床評估類型。結果顯示,61.1%的回應與指導方針一致,其中治療性問題的符合率為70.8%。不過,對於I級證據的建議,ChatGPT表現不佳,僅有20%的符合率。總體來看,雖然ChatGPT在某些方面表現中等,但醫療人員在使用AI建議時仍需謹慎,待更穩健的模型出現。 PubMed DOI

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI

這項研究比較了AI模型(ChatGPT-3.5、ChatGPT-4和Google Bard)與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查,結果顯示醫生之間的重測信度良好,但與AI模型的協議較低。雖然AI的回應詳細,但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策,但可用於初步資訊收集和緊急分診,並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI

這項研究發現,Bing Chat AI、ChatGPT、Gemini在搜尋腹股溝疝氣修補術相關文獻時,常會漏掉重要研究,甚至捏造不存在的文章(尤其是Gemini)。目前AI搜尋科學文獻不夠可靠,做學術研究時要特別小心。 PubMed DOI