原始文章

這項研究評估了大型語言模型(LLMs),如ChatGPT和Google Bard,對美學整形手術的回應可靠性,並與經驗豐富的外科醫生的見解進行比較。研究分析了三十位患者對皮膚填充劑、肉毒桿菌注射和眼瞼手術等問題的回應。十三位外科醫生根據可及性、準確性和實用性評估了LLM的回應。結果顯示,雖然聊天機器人的回應通常清晰且準確,但缺乏來源透明度限制了其可信度。研究建議在依賴LLMs作為主要信息來源時需謹慎,並呼籲進一步研究以增強其在醫療保健中的可靠性。 PubMed DOI


站上相關主題文章列表

美國醫療常有診斷錯誤,研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據,ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能,顯示人工智慧可輔助臨床決策,但不應取代傳統醫學知識。 PubMed DOI

這項研究評估了一個公開的人工智慧大型語言模型(LLM)在回答模擬病人關於美學乳房整形手術問題的表現。專家根據準確性、全面性等標準評分,總體得分為7.3分,乳房增大7.0分、乳房懸吊術7.6分、乳房縮小手術7.4分,對乳房植入物的知識得分為6.7分。儘管有些限制,研究顯示AI LLM可成為病人教育的有用工具,並可能隨著機器學習進步而改善。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、Google Gemini 和 Microsoft Copilot—在回答屈光手術相關問題的效果。兩位眼科醫生使用5點李克特量表評分25個常見問題的回答。結果顯示,ChatGPT-4.0的得分高於Microsoft Copilot,但與Google Gemini無顯著差異。根據DISCERN量表,ChatGPT-4.0的可靠性得分最高,但可讀性得分最低,顯示其答案對病人來說較為複雜。總體而言,ChatGPT-4.0提供了更準確的信息,但理解上較為困難。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答鼻整形手術諮詢問題的表現。結果顯示,Claude在七個問題中表現最佳,總分224分,ChatGPT緊隨其後,得200分。Meta和Gemini的表現較差,各得138分。整形外科醫生的評價顯示,Claude提供了最全面的答案,而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型,因為它們仍在不斷進步。 PubMed DOI

本研究探討ChatGPT在唇裂修復方面的回應質量與準確性,因為大型語言模型在健康資訊傳播中越來越常見。研究選取十個常見問題,並由五位整形外科醫師評估其內容質量、清晰度、相關性和可信度。結果顯示,ChatGPT的平均評分為2.9分,清晰度和內容質量較高,但可信度較低。可讀性適合約10年級學生。雖然回應中無明顯不準確或有害資訊,但缺乏引用來源,使用者需注意其局限性。 PubMed DOI

這項研究探討了ChatGPT在提供性別肯定手術(GAS)患者醫療資訊的角色。研究比較了經驗醫生與ChatGPT的回應,結果顯示ChatGPT的回應雖然較複雜,但在可靠性、品質和可理解性上表現良好。它提供了詳細且相關的資訊,強調了諮詢醫療提供者及處理心理層面的重要性。雖然ChatGPT在患者教育上有潛力,但因為其較高的閱讀水平和缺乏透明參考文獻,使用時仍需謹慎。總體來說,ChatGPT在提升GAS患者教育方面顯示出潛力,但仍需改進。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。 研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI

這項研究比較了四款主流多模態AI在臉部特徵分析上的表現。結果發現,這些AI在評估皮膚品質、臉部對稱等質性分析還可以,但在精確量測臉部比例時就不太準確,還無法取代臨床人工評估。未來若要應用在整形外科,還需要專業訓練和更強的電腦視覺技術輔助。 PubMed DOI