Large Language Models for Intraoperative Decision Support in Plastic Surgery: A Comparison between ChatGPT-4 and Gemini.
大型語言模型在整形外科手術中的術中決策支持：ChatGPT-4和Gemini之間的比較。 Medicina (Kaunas) 2024-06-27

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳，Gemini則回應更快且易讀。兩者皆有應用潛力，但需進一步訓練和優化以確保可靠性。 PubMed DOI

Comparative Analysis of Large Language Models in Emergency Plastic Surgery Decision-Making: The Role of Physical Exam Data.
緊急整形外科決策中大型語言模型的比較分析：身體檢查數據的作用。 J Pers Med 2024-06-27

美國醫療常有診斷錯誤，研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據，ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能，顯示人工智慧可輔助臨床決策，但不應取代傳統醫學知識。 PubMed DOI

Evaluating Large Language Model (LLM) Performance on Established Breast Classification Systems.
評估大型語言模型 (LLM) 在既定乳腺分類系統上的表現。 Diagnostics (Basel) 2024-07-27

醫學研究人員越來越多地使用先進的語言模型（LLMs），如ChatGPT-4和Gemini，來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力，以協助整形外科醫生做出更好的診斷和治療決策。研究中創建了五十個臨床情境來評估分類準確性，結果顯示Gemini的準確率高達98%，而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4，顯示出其在整形外科實踐中的潛力，未來有望增強診斷支持和決策能力。 PubMed DOI

Evaluating Large Language Models for Automated CPT Code Prediction in Endovascular Neurosurgery.
評估大型語言模型在血管內神經外科自動 CPT 代碼預測中的應用。 J Med Syst 2025-01-24

這項研究評估了三個大型語言模型（LLMs）—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語（CPT）代碼的效果。分析了30份手術記錄後，AtlasGPT 表現最佳，正確識別35.3%的 CPT 代碼，ChatGPT 緊隨其後，正確率為35.1%，而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出，雖然這些模型能部分識別 CPT 代碼，但進一步訓練可提升準確性，並可能降低醫療成本。 PubMed DOI

Assessing AI Accuracy in Generating CPT Codes From Surgical Operative Notes.
評估人工智慧在從外科手術記錄中生成 CPT 代碼的準確性。 J Craniofac Surg 2025-03-24

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Gemini，在根據手術記錄生成當前程序術語（CPT）代碼的有效性。分析了10個案例，將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似，準確性無顯著差異。Gemini的正確回應率稍高（30%對20%），而ChatGPT則有更多部分正確的回應（50%對40%）。研究指出，AI有潛力提升編碼準確性並減少醫療帳單的行政負擔，未來將探討其在其他外科領域的應用。 PubMed DOI

Artificial Intelligence in Surgical Coding: Evaluating Large Language Models for Current Procedural Terminology Accuracy in Hand Surgery.
手術編碼中的人工智慧：評估大型語言模型在手部外科當前程序術語準確性中的表現。 J Hand Surg Glob Online 2025-04-04

這項研究分析了五種大型語言模型（LLMs）在識別手部手術的CPT代碼上的表現，包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現，Perplexity.AI在簡單程序中表現最佳，獲得15個正確結果，而對於複雜程序，則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性，未來可能成為醫療工作流程的標準部分，符合數位轉型的趨勢。 PubMed DOI

Initial Proof-of-Concept Study for a Plastic Surgery Specific Artificial Intelligence Large Language Model: PlasticSurgeryGPT.
針對整形外科特定人工智慧大型語言模型的初步概念驗證研究：PlasticSurgeryGPT。 Aesthet Surg J 2025-04-08

這項研究介紹了PlasticSurgeryGPT，一個專為整形外科設計的語言模型，經過微調以適應25,389篇研究摘要，旨在提升臨床決策、外科教育及研究表現。數據來自2010至2024年間的PubMed，並已預處理以便訓練。模型基於GPT-2架構，評估結果顯示PlasticSurgeryGPT在生成整形外科內容上表現優於通用模型。研究強調特定領域的語言模型在整形外科的潛力，並建議未來可探索更多數據和更大模型以進一步改善。 PubMed DOI

Bridging the Coding Gap: Assessing Large Language Models for Accurate Modifier Assignment in Craniofacial Operative Notes.
彌補編碼差距：評估大型語言模型在顱面手術記錄中準確指派修飾語的能力。 J Craniofac Surg 2025-04-11

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Google Gemini，在顱面手術記錄中識別CPT修飾符的效果。準確的醫療編碼對醫療管理和報銷非常重要，尤其在顱面外科這種複雜領域。研究分析了10份手術報告，結果顯示兩個模型都未能成功識別CPT代碼及修飾符，但ChatGPT稍微優於Google Gemini，部分回應中包含正確的代碼。這項研究顯示LLMs在顱面外科的潛力，未來應提升其能力並評估在其他外科的應用。 PubMed DOI

Facial Analysis for Plastic Surgery in the Era of Artificial Intelligence: A Comparative Evaluation of Multimodal Large Language Models.
人工智慧時代的整形外科臉部分析：多模態大型語言模型的比較性評估 J Clin Med 2025-05-28

這項研究比較了四款主流多模態AI在臉部特徵分析上的表現。結果發現，這些AI在評估皮膚品質、臉部對稱等質性分析還可以，但在精確量測臉部比例時就不太準確，還無法取代臨床人工評估。未來若要應用在整形外科，還需要專業訓練和更強的電腦視覺技術輔助。 PubMed DOI

Evaluating Large Language Models for Preoperative Patient Education in Superior Capsular Reconstruction: Comparative Study of Claude, GPT, and Gemini.
在上方肩關節囊重建術（Superior Capsular Reconstruction）術前病患衛教中評估大型語言模型：Claude、GPT 與 Gemini 之比較研究 JMIR Perioper Med 2025-06-12

這項研究比較三款大型語言模型產生的SCR手術衛教資料，發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過，所有模型都沒附參考文獻，也沒提及其他治療選擇或不手術的風險，顯示臨床使用前還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表