Large Language Models for Intraoperative Decision Support in Plastic Surgery: A Comparison between ChatGPT-4 and Gemini.
大型語言模型在整形外科手術中的術中決策支持：ChatGPT-4和Gemini之間的比較。 Medicina (Kaunas) 2024-06-27

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳，Gemini則回應更快且易讀。兩者皆有應用潛力，但需進一步訓練和優化以確保可靠性。 PubMed DOI

Evaluating Large Language Models for Automated CPT Code Prediction in Endovascular Neurosurgery.
評估大型語言模型在血管內神經外科自動 CPT 代碼預測中的應用。 J Med Syst 2025-01-24

這項研究評估了三個大型語言模型（LLMs）—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語（CPT）代碼的效果。分析了30份手術記錄後，AtlasGPT 表現最佳，正確識別35.3%的 CPT 代碼，ChatGPT 緊隨其後，正確率為35.1%，而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出，雖然這些模型能部分識別 CPT 代碼，但進一步訓練可提升準確性，並可能降低醫療成本。 PubMed DOI

Comparative Analysis of Artificial Intelligence Platforms in Generating Post-Operative Instructions for Rhinologic Surgery.
鼻科手術後指示生成中人工智慧平台的比較分析。 Indian J Otolaryngol Head Neck Surg 2025-03-11

隨著像ChatGPT和Google Gemini等AI平台的快速發展，這些工具在醫療資訊，特別是術後指導方面的使用逐漸增加。一項研究比較了這些AI系統在為接受內窺鏡鼻竇手術的病人提供術後指導的有效性。雖然AI生成的內容能被理解，但在可行性和可讀性上仍有不足，顯示病人在尋求術後指導時需謹慎考量這些限制，並強調對AI醫療資訊進行仔細評估的重要性，以確保病人的安全與最佳結果。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Artificial Intelligence in Surgical Coding: Evaluating Large Language Models for Current Procedural Terminology Accuracy in Hand Surgery.
手術編碼中的人工智慧：評估大型語言模型在手部外科當前程序術語準確性中的表現。 J Hand Surg Glob Online 2025-04-04

這項研究分析了五種大型語言模型（LLMs）在識別手部手術的CPT代碼上的表現，包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現，Perplexity.AI在簡單程序中表現最佳，獲得15個正確結果，而對於複雜程序，則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性，未來可能成為醫療工作流程的標準部分，符合數位轉型的趨勢。 PubMed DOI

Bridging the Coding Gap: Assessing Large Language Models for Accurate Modifier Assignment in Craniofacial Operative Notes.
彌補編碼差距：評估大型語言模型在顱面手術記錄中準確指派修飾語的能力。 J Craniofac Surg 2025-04-11

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Google Gemini，在顱面手術記錄中識別CPT修飾符的效果。準確的醫療編碼對醫療管理和報銷非常重要，尤其在顱面外科這種複雜領域。研究分析了10份手術報告，結果顯示兩個模型都未能成功識別CPT代碼及修飾符，但ChatGPT稍微優於Google Gemini，部分回應中包含正確的代碼。這項研究顯示LLMs在顱面外科的潛力，未來應提升其能力並評估在其他外科的應用。 PubMed DOI

Evaluating Large Language Model's accuracy in current procedural terminology coding given operative note templates across various plastic surgery sub-specialties.
針對不同整形外科次專科手術紀錄範本，評估大型語言模型於Current Procedural Terminology (CPT) 編碼的準確性 J Plast Reconstr Aesthet Surg 2025-05-14

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現，結果發現三者準確率都很低（最高僅19.2%）。Gemini在美學手術較佳，Copilot則在一般重建手術表現較好，但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確，仍需人工審核。 PubMed DOI

Transforming Neurosurgical Practice with Large Language Models: Comparative Performance of ChatGPT-Omni and Gemini in Complex Case Management.
以大型語言模型革新神經外科實務：ChatGPT-Omni 與 Gemini 在複雜病例管理中的表現比較 World Neurosurg 2025-05-22

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好，不論初次還是後續評估都領先。雖然兩者都有進步，但ChatGPT-Omni在所有神經外科情境下表現都較佳，更適合用於臨床決策和教育輔助。 PubMed DOI

Transforming neurosurgical practice with large language models: comparative performance of ChatGPT-omni and Gemini in complex case management.
以大型語言模型革新神經外科實踐：ChatGPT-omni 與 Gemini 在複雜病例管理中的表現比較 J Neurosurg Sci 2025-06-05

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示，ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀，不論初次或後續測試都拿到較高分。雖然兩者都有進步，但ChatGPT-Omni始終領先，顯示它在神經外科決策和教學上很有潛力。 PubMed DOI

Evaluating the Application of Artificial Intelligence and Ambient Listening to Generate Medical Notes in Vitreoretinal Clinic Encounters.
人工智慧與環境聆聽技術於玻璃體視網膜門診紀錄生成之應用評估 Clin Ophthalmol 2025-06-10

這項研究比較了 ChatGPT 3.5 和 Google Gemini 1.0 Pro 在生成視網膜門診紀錄的表現。結果顯示，ChatGPT 3.5 不論在轉錄準確度還是紀錄品質都優於 Gemini。不過，兩者偶爾還是會出現資訊錯誤。整體來說，這類 AI 有助減輕醫師紀錄負擔，但還需要再優化才能更安心使用。 PubMed DOI

原始文章

站上相關主題文章列表