Evaluating capabilities of large language models: Performance of GPT-4 on surgical knowledge assessments.
評估大型語言模型的能力：GPT-4 在外科知識評估中的表現。 Surgery 2024-03-20

人工智慧如ChatGPT在醫療方面有潛力，尤其在診斷和治療上。研究顯示，在外科知識問題上，ChatGPT的表現接近或超越人類水準，尤其在多重選擇問題上更優秀，提供獨到見解。然而，有時答案可能不正確，且回應可能不一致。儘管表現令人驚豔，但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

Can Artificial Intelligence Mitigate Missed Diagnoses by Generating Differential Diagnoses for Neurosurgeons?
人工智慧是否能透過為神經外科醫師生成不同診斷來減輕漏診情況？ World Neurosurg 2024-05-17

研究指出，像ChatGPT這樣的大型語言模型對神經外科醫生在處理臨床病例時有幫助。ChatGPT 3.5和4.0在診斷方面比Perplexity AI和Bard AI更準確，前五個診斷中達到77.89%的正確率。然而，對於複雜疾病仍有挑戰。總的來說，LLMs有助於提升神經外科診斷的精準度。 PubMed DOI

AI Versus MD: Evaluating the surgical decision-making accuracy of ChatGPT-4.
AI 對抗醫生：評估 ChatGPT-4 在手術決策準確性。 Surgery 2024-05-20

研究發現ChatGPT-4在外科決策方面表現優於初級醫師，與高年級醫師相當。ChatGPT-4平均得分為79.2%，初級醫師66.8%，高年級醫師76.0%，主治醫師77.6%。特別在手術和檢查方面表現出色，可作為教育工具幫助初級醫師學習外科決策。 PubMed DOI

ChatGPT-4 Surpasses Residents: A Study of Artificial Intelligence Competency in Plastic Surgery In-service Examinations and Its Advancements from ChatGPT-3.5.
ChatGPT-4 超越住院醫師：人工智慧在整形外科在職考試中的能力研究及其相較於 ChatGPT-3.5 的進展。 Plast Reconstr Surg Glob Open 2024-09-06

這項研究評估了ChatGPT-4在整形外科在職考試中的表現，並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題，ChatGPT-4的正確率為74.4%，在核心外科原則上表現最佳（79.1%），顱顏面外科則最低（69.1%）。它的排名介於第61到第97百分位，明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師，達到第六年綜合住院醫師的水準。 PubMed DOI

The Diagnostic Ability of GPT-3.5 and GPT-4.0 in Surgery: Comparative Analysis.
GPT-3.5 和 GPT-4.0 在外科診斷能力的比較分析。 J Med Internet Res 2024-09-10

這項研究評估了ChatGPT在診斷結腸癌的能力，特別是比較GPT-3.5和GPT-4.0的表現。研究分析了286份腸癌病例，結果顯示GPT-4.0在初診和次診的準確率均高於GPT-3.5，分別為0.972對0.855和0.908對0.617。雖然GPT-4.0在處理病史和實驗室數據上有所改善，但在識別症狀方面仍有挑戰。整體而言，GPT-4.0在臨床輔助診斷中展現出潛力，但仍需進一步研究以克服其限制。 PubMed DOI

Comparative Analysis of Large Language Models and Spine Surgeons in Surgical Decision-Making and Radiological Assessment for Spine Pathologies.
大型語言模型與脊椎外科醫生在脊椎病理的手術決策與影像評估中的比較分析。 World Neurosurg 2024-12-02

這項研究評估了大型語言模型（LLMs），如ChatGPT和Claude，在脊椎病理的外科決策及放射影像解讀的有效性，並與經驗豐富的脊椎外科醫生進行比較。結果顯示，雖然LLMs能詳細描述MRI影像，但在準確識別病變及外科決策上表現不佳，準確率僅20%，遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力，但需進一步發展以克服現有限制，並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

Pilot Study on AI Image Analysis for Lower-Limb Reconstruction-Assessing ChatGPT-4's Recommendations in Comparison to Board-Certified Plastic Surgeons and Resident Physicians.
下肢重建的 AI 影像分析初步研究—評估 ChatGPT-4 的建議與經過認證的整形外科醫生及住院醫師的比較。 Life (Basel) 2025-01-25

這項研究探討了ChatGPT-4在分析下肢缺損影像及理解複雜病例報告的能力，並與專業外科醫生及住院醫師進行比較。研究在瑞士、德國和奧地利進行，52名參與者評估影像並選擇重建技術。結果顯示，ChatGPT-4在識別最佳解決方案上有困難，而專業外科醫生則表現出高度一致性。這強調了人類專業知識在患者治療計畫中的重要性，建議AI可作為輔助工具，而非取代技術熟練的外科醫生。 PubMed DOI

Navigating the Future of Pediatric Cardiovascular surgery: Insights and Innovation powered by ChatGPT.
兒童心血管外科未來的探索：由 ChatGPT 驅動的見解與創新。 J Thorac Cardiovasc Surg 2025-02-02

這項研究探討了使用ChatGPT協助先天性心臟病患者在心血管手術會議中的決策。研究分析了37個案例，發現ChatGPT能在10到15秒內準確總結案例，並在94.5%的情況下正確識別診斷。手術計畫與會議共識一致的比例為40.5%，而手術時機一致性為62.2%。研究建議ChatGPT可作為有價值的工具，特別在較簡單的案例中，但對於複雜情況仍需謹慎，並強調專家監督的重要性。 PubMed DOI

Evaluation of Chat Generative Pre-trained Transformer and Microsoft Copilot Performance on the American Society of Surgery of the Hand Self-Assessment Examinations.
Chat Generative Pre-trained Transformer 和 Microsoft Copilot 在美國手外科學會自我評估考試中的表現評估。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示，ChatGPT-3.5的正確率為51.6%，而ChatGPT-4提升至63.4%；Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5，顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

The Challenges of Using ChatGPT for Clinical Decision Support in Orthopaedic Surgery: A Pilot Study.
使用 ChatGPT 進行骨科手術臨床決策支持的挑戰：一項初步研究。 J Am Acad Orthop Surg 2025-03-28

這項研究探討了人工智慧，特別是ChatGPT-4，在分析複雜臨床數據及生成合理評估和計畫的能力，特別針對骨科手術。研究聚焦於急診部門的十種常見骨折，利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示，ChatGPT-4能產出安全且合理的計畫，與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中，但這項研究顯示AI在臨床決策中的潛力，未來可考慮以實際臨床結果作為基準。 PubMed DOI

原始文章

站上相關主題文章列表