原始文章

這項研究比較了四款主流多模態AI在臉部特徵分析上的表現。結果發現,這些AI在評估皮膚品質、臉部對稱等質性分析還可以,但在精確量測臉部比例時就不太準確,還無法取代臨床人工評估。未來若要應用在整形外科,還需要專業訓練和更強的電腦視覺技術輔助。 PubMed DOI


站上相關主題文章列表

美國醫療常有診斷錯誤,研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據,ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能,顯示人工智慧可輔助臨床決策,但不應取代傳統醫學知識。 PubMed DOI

醫學研究人員越來越多地使用先進的語言模型(LLMs),如ChatGPT-4和Gemini,來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力,以協助整形外科醫生做出更好的診斷和治療決策。 研究中創建了五十個臨床情境來評估分類準確性,結果顯示Gemini的準確率高達98%,而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4,顯示出其在整形外科實踐中的潛力,未來有望增強診斷支持和決策能力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答鼻整形手術諮詢問題的表現。結果顯示,Claude在七個問題中表現最佳,總分224分,ChatGPT緊隨其後,得200分。Meta和Gemini的表現較差,各得138分。整形外科醫生的評價顯示,Claude提供了最全面的答案,而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型,因為它們仍在不斷進步。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Google Bard,對美學整形手術的回應可靠性,並與經驗豐富的外科醫生的見解進行比較。研究分析了三十位患者對皮膚填充劑、肉毒桿菌注射和眼瞼手術等問題的回應。十三位外科醫生根據可及性、準確性和實用性評估了LLM的回應。結果顯示,雖然聊天機器人的回應通常清晰且準確,但缺乏來源透明度限制了其可信度。研究建議在依賴LLMs作為主要信息來源時需謹慎,並呼籲進一步研究以增強其在醫療保健中的可靠性。 PubMed DOI

這項研究介紹了PlasticSurgeryGPT,一個專為整形外科設計的語言模型,經過微調以適應25,389篇研究摘要,旨在提升臨床決策、外科教育及研究表現。數據來自2010至2024年間的PubMed,並已預處理以便訓練。模型基於GPT-2架構,評估結果顯示PlasticSurgeryGPT在生成整形外科內容上表現優於通用模型。研究強調特定領域的語言模型在整形外科的潛力,並建議未來可探索更多數據和更大模型以進一步改善。 PubMed DOI

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI

AI(像 ChatGPT)在整形外科教育有潛力,能協助學習和考試,但內容偶有錯誤,證據也還不夠多。AI 可輔助基礎教學和技能評估,但無法取代專業醫師。未來需更多研究、提升技術及明確規範,才能安全有效應用。 PubMed DOI

這項研究比較了公開AI模型(如ChatGPT 4o)和自訂模型(Pyolo8)在乳房重建手術後對稱性評估的表現。兩者和專家評分有中到高度一致,ChatGPT在溝通上特別突出。不過,研究團隊認為AI不宜直接與病人互動,避免誤解和情緒問題。總結來說,AI能協助評估,但專業醫師的監督和同理心仍不可取代。 PubMed DOI

這項研究發現,ChatGPT(特別是GPT-4o)在唇顎裂問題的回答上,表現中等,內容清楚易懂,有時甚至比資淺醫師還專業。不過,AI還是缺乏臨床經驗和細緻判斷,無法完全取代資深醫師。AI適合當輔助工具,幫助病患教育和溝通,搭配專家一起用,能提升照護品質。 PubMed DOI

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現,結果顯示它們都能產生真實又實用的對話,平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好,但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究,但還是要注意多元性和偏見的問題。 PubMed DOI