Assessing the Accuracy and Reliability of AI-Generated Responses to Patient Questions Regarding Spine Surgery.
評估人工智慧生成的回答對患者關於脊椎手術問題的準確性和可靠性。 J Bone Joint Surg Am 2024-02-09

研究發現，病患在Bing搜尋脊椎手術資訊時，大多數回答都準確完整，且錯誤會被更正。商業來源常見，政府來源評分最高。研究強調需持續評估改進大型語言模型，以提供病患可靠網路資訊。 PubMed DOI

Are large language models valid tools for patient information on lumbar disc herniation? The spine surgeons' perspective.
大型語言模型對腰椎間盤突出症患者資訊的有效性：脊椎外科醫師的觀點。 Brain Spine 2024-05-06

生成式人工智慧如ChatGPT和Google Bard被應用在患者教育，例如腰椎間盤突出。研究發現，這些AI回答腰椎間盤突出的問題時，準確性和清晰度有差異，需要改進。未來應該專注於提升AI模型，以增進患者和醫師之間的溝通。 PubMed DOI

Evaluating the Adherence of Large Language Models to Surgical Guidelines: A Comparative Analysis of Chatbot Recommendations and North American Spine Society (NASS) Coverage Criteria.
評估大型語言模型對外科指導方針的遵循性：Chatbot 建議與北美脊柱學會 (NASS) 覆蓋標準的比較分析。 Cureus 2024-10-04

這項研究調查了四個大型語言模型（LLMs）—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會（NASS）頸椎融合指導方針的表現。結果顯示，這些模型的遵循率不高，ChatGPT-4和Bing Chat表現較佳，僅達60%。在特定情況下，所有模型都未能符合NASS建議，顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求，並指出在臨床決策中考慮病人特徵的重要性，顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

Quantifying the Scope of Artificial Intelligence-Assisted Writing in Orthopaedic Medical Literature: An Analysis of Prevalence and Validation of AI-Detection Software.
量化人工智慧輔助寫作在骨科醫學文獻中的範圍：AI 偵測軟體的普及性與驗證分析。 J Am Acad Orthop Surg 2024-11-27

這項研究探討了生成式人工智慧，特別是ChatGPT，對骨科文獻的影響，分析了AI生成文章的普遍性、AI檢測器的準確性，以及文章特徵與被判定為AI生成的可能性之間的關係。研究分析了240篇2023年後的骨科期刊文章，並發現AI檢測器能有效識別AI生成內容，但有些檢測器表現不佳。雖然AI生成文本的比例略有增加，但與期刊、文章類型或提交時間等因素並無一致關聯。結論強調需謹慎監督以維護研究完整性，並進一步發展AI檢測工具。 PubMed DOI

Artificial intelligence versus clinical judgement: how accurately do generative models reflect CNS guidelines for chiari malformation?
人工智慧與臨床判斷：生成模型在 Chiari malformation 中對中樞神經系統指導方針的反映準確性如何？ Clin Neurol Neurosurg 2024-11-29

這項研究評估了四個生成式人工智慧模型在回答2023年神經外科醫師大會對Chiari 1畸形指導方針問題的表現。研究提出十三個問題，結果顯示Perplexity的符合率最高，達69.2%，而ChatGPT 4o最低，僅23.1%。Copilot和Gemini的符合率分別為61.5%和30.8%。所有模型的可讀性都很高，顯示出理解上的困難。研究強調，雖然AI能協助臨床，但醫生在解讀AI回應時的判斷仍然至關重要。 PubMed DOI

Generating credible referenced medical research: A comparative study of openAI's GPT-4 and Google's gemini.
生成可信的參考醫學研究：OpenAI 的 GPT-4 與 Google 的 Gemini 的比較研究。 Comput Biol Med 2024-12-12

這項研究比較了OpenAI的GPT-4和Google的Gemini Ultra在生成醫學研究引言的表現，特別是引用的準確性。結果顯示，Gemini在引用精確度上優於GPT-4，正確率分別為77.2%和54.0%。雖然GPT-4生成的引言較長，但包含更多未引用的信息。儘管Gemini表現較佳，兩者仍生成虛構證據，讓人對其學術可靠性產生疑慮。這強調了驗證AI生成內容的重要性，並建議進一步研究AI在科學寫作中的能力與限制。 PubMed DOI

Generative Artificial Intelligence Responses to Common Patient-Centric Hand and Wrist Surgery Questions: A Quality and Usability Analysis.
針對常見病人中心的手部和手腕手術問題的生成式人工智慧回應：質量和可用性分析。 J Hand Surg Asian Pac Vol 2025-01-08

這項研究評估了兩個AI平台（Gemini和ChatGPT）對手部和手腕手術常見問題的回答質量。共提出12個問題，分析48個回答，使用三種評分工具進行評估。結果顯示，回答的平均分數為55.7（良好）、57.2%（足夠）和4.4。手腕相關問題的回答質量顯著高於手部問題，且Gemini在評分上優於ChatGPT。雖然AI的回答通常被評為良好，但質量因平台和問題類型而異，了解這些差異對病人尋求資訊至關重要。 PubMed DOI

Evaluating Artificial Intelligence in Spinal Cord Injury Management: A Comparative Analysis of ChatGPT-4o and Google Gemini Against American College of Surgeons Best Practices Guidelines for Spine Injury.
評估人工智慧在脊髓損傷管理中的應用：ChatGPT-4o 和 Google Gemini 與美國外科醫師學會脊椎損傷最佳實踐指導方針的比較分析。 Global Spine J 2025-02-17

這項研究評估了兩個人工智慧模型，ChatGPT-4o 和 Gemini Advanced，與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題，結果顯示ChatGPT-4o的一致率為73.07%，正確回答38題；而Gemini Advanced為69.23%，正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳，但ChatGPT在治療性問題上較強。整體而言，這些模型在脊椎損傷管理上顯示潛力，但仍有改進空間。 PubMed DOI

Can generative artificial intelligence provide accurate medical advice?: a case of ChatGPT versus Congress of Neurological Surgeons management of acute cervical spine and spinal cord injuries clinical guidelines.
生成式人工智慧能提供準確的醫療建議嗎？：ChatGPT 與神經外科醫師大會急性頸椎和脊髓損傷臨床指導方針的比較。 Asian Spine J 2025-03-04

這項研究評估了ChatGPT-4.0在頸椎和脊髓損傷管理上與神經外科醫師學會（CNS）指導方針的一致性。共設計36個問題，分為治療性、診斷性和臨床評估類型。結果顯示，61.1%的回應與指導方針一致，其中治療性問題的符合率為70.8%。不過，對於I級證據的建議，ChatGPT表現不佳，僅有20%的符合率。總體來看，雖然ChatGPT在某些方面表現中等，但醫療人員在使用AI建議時仍需謹慎，待更穩健的模型出現。 PubMed DOI

AI versus the spinal surgeons in the management of controversial spinal surgery scenarios.
AI 與脊椎外科醫生在爭議性脊椎手術情境中的管理。 Eur Spine J 2025-04-02

這項研究比較了AI模型（ChatGPT-3.5、ChatGPT-4和Google Bard）與經驗豐富的脊椎外科醫生在複雜脊椎手術情境中的表現。透過對十位外科醫生進行兩次問卷調查，結果顯示醫生之間的重測信度良好，但與AI模型的協議較低。雖然AI的回應詳細，但醫生的答案更簡潔。研究認為AI目前不適合用於複雜手術決策，但可用於初步資訊收集和緊急分診，並強調需解決法律和倫理問題才能進一步應用。 PubMed DOI

原始文章

站上相關主題文章列表