原始文章

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現,結果顯示它們都能產生真實又實用的對話,平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好,但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究,但還是要注意多元性和偏見的問題。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4和Gemini Pro兩個語言模型在整形外科手術決策支援的表現。ChatGPT-4準確性和相關性較佳,Gemini則回應更快且易讀。兩者皆有應用潛力,但需進一步訓練和優化以確保可靠性。 PubMed DOI

美國醫療常有診斷錯誤,研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據,ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能,顯示人工智慧可輔助臨床決策,但不應取代傳統醫學知識。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答鼻整形手術諮詢問題的表現。結果顯示,Claude在七個問題中表現最佳,總分224分,ChatGPT緊隨其後,得200分。Meta和Gemini的表現較差,各得138分。整形外科醫生的評價顯示,Claude提供了最全面的答案,而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型,因為它們仍在不斷進步。 PubMed DOI

這篇論文探討如何利用大型語言模型(LLMs),像是ChatGPT-4,來改善醫療溝通,讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式:父權式、資訊式、詮釋式和審議式,旨在滿足病人的需求與偏好。不過,論文也提到潛在風險,如可能加深偏見及LLMs的說服性,可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量,由整形外科醫生進行驗證。可讀性用不同指數評估,可靠性則用DISCERN分數衡量。結果顯示,Claude在速度和輸出質量上優於其他模型,成為醫療文檔中最有效率的LLM,可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究比較了四款主流多模態AI在臉部特徵分析上的表現。結果發現,這些AI在評估皮膚品質、臉部對稱等質性分析還可以,但在精確量測臉部比例時就不太準確,還無法取代臨床人工評估。未來若要應用在整形外科,還需要專業訓練和更強的電腦視覺技術輔助。 PubMed DOI

這項研究比較三款大型語言模型產生的SCR手術衛教資料,發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過,所有模型都沒附參考文獻,也沒提及其他治療選擇或不手術的風險,顯示臨床使用前還是需要專家把關。 PubMed DOI

這項研究比較GPT、Claude和Gemini三款AI在中風照護的表現,發現它們在正確性、同理心等方面都不夠穩定,沒有一款能全面達到臨床標準。不同提示方法各有優缺點,但整體來說,現階段AI還無法完全勝任中風照護需求。 PubMed DOI