Analyzing Large Language Models' Responses to Common Lumbar Spine Fusion Surgery Questions: A Comparison Between ChatGPT and Bard.
分析大型語言模型對常見腰椎融合手術問題的回答：ChatGPT 和 Bard 的比較。 Neurospine 2024-07-02

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現，結果顯示兩者回答品質高，但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高，Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2024-09-19

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，但風險因素的回答最不準確。整體可讀性被評為「相當困難」，平均得分為50.94。此外，70%-100%的回答都包含健康建議的免責聲明。研究建議，雖然LLM聊天機器人對病人教育有幫助，但準確性和可靠性可能因主題而異，影響病人理解。 PubMed DOI

Artificial Intelligence Promotes the Dunning Kruger Effect: Evaluating ChatGPT Answers to Frequently Asked Questions About Adolescent Idiopathic Scoliosis.
人工智慧促進了鄧寇克效應：評估 ChatGPT 對青少年特發性脊柱側彎常見問題的回答。 J Am Acad Orthop Surg 2024-09-25

患者和家屬常在網路上尋找醫療資訊，隨著像 ChatGPT 的 AI 聊天機器人興起，他們可能會用這些工具詢問青少年特發性脊柱側彎（AIS）的問題。最近的評估顯示，ChatGPT對AIS的回應中，有四個滿意、三個需要中等澄清、兩個不滿意。特別是在手術選項上，這個聊天機器人的表現不佳。雖然提供的資訊通常準確，但也可能讓患者產生誤解，因此在使用AI資源時，對於複雜醫療問題，進行資訊驗證非常重要。 PubMed DOI

Evaluating the Adherence of Large Language Models to Surgical Guidelines: A Comparative Analysis of Chatbot Recommendations and North American Spine Society (NASS) Coverage Criteria.
評估大型語言模型對外科指導方針的遵循性：Chatbot 建議與北美脊柱學會 (NASS) 覆蓋標準的比較分析。 Cureus 2024-10-04

這項研究調查了四個大型語言模型（LLMs）—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會（NASS）頸椎融合指導方針的表現。結果顯示，這些模型的遵循率不高，ChatGPT-4和Bing Chat表現較佳，僅達60%。在特定情況下，所有模型都未能符合NASS建議，顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求，並指出在臨床決策中考慮病人特徵的重要性，顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

Comparative Analysis of Large Language Models and Spine Surgeons in Surgical Decision-Making and Radiological Assessment for Spine Pathologies.
大型語言模型與脊椎外科醫生在脊椎病理的手術決策與影像評估中的比較分析。 World Neurosurg 2024-12-02

這項研究評估了大型語言模型（LLMs），如ChatGPT和Claude，在脊椎病理的外科決策及放射影像解讀的有效性，並與經驗豐富的脊椎外科醫生進行比較。結果顯示，雖然LLMs能詳細描述MRI影像，但在準確識別病變及外科決策上表現不佳，準確率僅20%，遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力，但需進一步發展以克服現有限制，並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

Assessing the performance of AI chatbots in answering patients' common questions about low back pain.
評估 AI 聊天機器人在回答患者有關下背痛的常見問題中的表現。 Ann Rheum Dis 2025-01-28

這項研究評估了大型語言模型（LLM）聊天機器人對於常見病人問題（如下背痛）的回答準確性和可讀性。分析了30個問題，結果顯示120個回答中，55.8%準確，42.1%不準確，1.9%不清楚。治療和自我管理的回答較準確，風險因素則最不準確。可讀性平均得分為50.94，顯示文本相對困難。此外，70%-100%的回答都有健康建議的免責聲明。總體而言，雖然LLM聊天機器人有潛力，但準確性和可讀性差異可能影響病人理解。 PubMed DOI

Evaluation of the reliability, usefulness, quality and readability of ChatGPT's responses on Scoliosis.
對於脊柱側彎的 ChatGPT 回應的可靠性、有用性、質量和可讀性的評估。 Eur J Orthop Surg Traumatol 2025-03-18

這項研究評估了ChatGPT對脊柱側彎問題的回答在可靠性、有用性、品質和可讀性方面的表現。選擇了十六個常見問題，由兩位專家評分。結果顯示，可靠性平均得分4.68，有用性得分4.84，整體品質得分4.28，評價普遍正面。雖然一般資訊的回答表現不錯，但針對治療和個人化問題的回答仍需加強。可讀性方面，回答需具備高中三年級到大學程度的閱讀能力。總體來說，ChatGPT提供的脊柱側彎資訊可靠，但在特定問題上仍需謹慎使用。 PubMed DOI

Evaluating the performance of large language models in health education for patients with ankylosing spondylitis/spondyloarthritis: a cross-sectional, single-blind study in China.
評估大型語言模型在健康教育中對於強直性脊柱炎/脊椎關節炎患者的表現：中國的一項橫斷面單盲研究。 BMJ Open 2025-03-21

這項研究評估大型語言模型（LLMs）在教育強直性脊柱炎（AS）和脊椎關節炎（SpA）患者的有效性，涵蓋182名參與者，包括4名風濕病學專家和178名患者。結果顯示，LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導，且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力，未來可能成為醫療實踐中的重要工具。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Can popular AI large language models provide reliable answers to frequently asked questions about rotator cuff tears?
流行的 AI 大型語言模型能否提供有關旋轉袖撕裂的常見問題的可靠答案？ JSES Int 2025-04-04

旋轉袖肌腱撕裂是常見的肩部傷害，會影響功能和生活品質。隨著人們越來越依賴人工智慧大型語言模型（AI LLMs）獲取健康資訊，評估其資訊質量和可讀性變得重要。一項研究針對此傷害生成50個問題，分析了多個AI模型及Google搜尋的回應。結果顯示，雖然有改進潛力，但目前的AI LLM在醫療資訊的質量和可讀性上仍不足，未來需持續評估並提升其表現，以更好地支持病人教育。 PubMed DOI

原始文章

站上相關主題文章列表