Large Language Models for Intraoperative Decision Support in Plastic Surgery: A Comparison between ChatGPT-4 and Gemini.
大型語言模型在整形外科手術中的術中決策支持：ChatGPT-4和Gemini之間的比較。 Medicina (Kaunas) 2024-06-27

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳，Gemini則回應更快且易讀。兩者皆有應用潛力，但需進一步訓練和優化以確保可靠性。 PubMed DOI

Comparative Analysis of Large Language Models in Emergency Plastic Surgery Decision-Making: The Role of Physical Exam Data.
緊急整形外科決策中大型語言模型的比較分析：身體檢查數據的作用。 J Pers Med 2024-06-27

美國醫療常有診斷錯誤，研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據，ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能，顯示人工智慧可輔助臨床決策，但不應取代傳統醫學知識。 PubMed DOI

Comparative Performance of the Leading Large Language Models in Answering Complex Rhinoplasty Consultation Questions.
大型語言模型在回答複雜鼻整形諮詢問題中的比較表現。 Facial Plast Surg Aesthet Med 2025-01-15

這項研究評估了四個大型語言模型（LLMs）在回答鼻整形手術諮詢問題的表現。結果顯示，Claude在七個問題中表現最佳，總分224分，ChatGPT緊隨其後，得200分。Meta和Gemini的表現較差，各得138分。整形外科醫生的評價顯示，Claude提供了最全面的答案，而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型，因為它們仍在不斷進步。 PubMed DOI

Which AI doctor would you like to see? Emulating healthcare provider-patient communication models with GPT-4: proof-of-concept and ethical exploration.
您希望看到哪位 AI 醫生？以 GPT-4 模擬醫療提供者與病人之間的溝通模式：概念驗證與倫理探索。 J Med Ethics 2025-03-03

這篇論文探討如何利用大型語言模型（LLMs），像是ChatGPT-4，來改善醫療溝通，讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式：父權式、資訊式、詮釋式和審議式，旨在滿足病人的需求與偏好。不過，論文也提到潛在風險，如可能加深偏見及LLMs的說服性，可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

Evaluating the Efficacy of Large Language Models in Generating Medical Documentation: A Comparative Study of ChatGPT-4, ChatGPT-4o, and Claude.
評估大型語言模型在生成醫療文檔中的效能：ChatGPT-4、ChatGPT-4o 和 Claude 的比較研究。 Aesthetic Plast Surg 2025-04-14

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量，由整形外科醫生進行驗證。可讀性用不同指數評估，可靠性則用DISCERN分數衡量。結果顯示，Claude在速度和輸出質量上優於其他模型，成為醫療文檔中最有效率的LLM，可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

DeepSeek Versus GPT: Evaluation of Large Language Model Chatbots' Responses on Orofacial Clefts.
DeepSeek 與 GPT：大型語言模型聊天機器人在口腔顏面裂隙相關問題回應的評估 J Craniofac Surg 2025-04-17

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現，Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳，但GPT o1-preview在展現同理心方面較突出。兩者各有優勢，未來醫療用AI應結合準確性與同理心，才能提供更完善的病患諮詢服務。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Facial Analysis for Plastic Surgery in the Era of Artificial Intelligence: A Comparative Evaluation of Multimodal Large Language Models.
人工智慧時代的整形外科臉部分析：多模態大型語言模型的比較性評估 J Clin Med 2025-05-28

這項研究比較了四款主流多模態AI在臉部特徵分析上的表現。結果發現，這些AI在評估皮膚品質、臉部對稱等質性分析還可以，但在精確量測臉部比例時就不太準確，還無法取代臨床人工評估。未來若要應用在整形外科，還需要專業訓練和更強的電腦視覺技術輔助。 PubMed DOI

Evaluating Large Language Models for Preoperative Patient Education in Superior Capsular Reconstruction: Comparative Study of Claude, GPT, and Gemini.
在上方肩關節囊重建術（Superior Capsular Reconstruction）術前病患衛教中評估大型語言模型：Claude、GPT 與 Gemini 之比較研究 JMIR Perioper Med 2025-06-12

這項研究比較三款大型語言模型產生的SCR手術衛教資料，發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過，所有模型都沒附參考文獻，也沒提及其他治療選擇或不手術的風險，顯示臨床使用前還是需要專家把關。 PubMed DOI

Evaluation of performance of generative large language models for stroke care.
生成式大型語言模型於中風照護表現之評估 NPJ Digit Med 2025-07-29

這項研究比較GPT、Claude和Gemini三款AI在中風照護的表現，發現它們在正確性、同理心等方面都不夠穩定，沒有一款能全面達到臨床標準。不同提示方法各有優缺點，但整體來說，現階段AI還無法完全勝任中風照護需求。 PubMed DOI

原始文章

站上相關主題文章列表