原始文章

這項研究比較四款AI聊天機器人在外科選擇題的表現,發現Copilot表現最佳,ChatGPT次之,Bard和Medical Chat較弱。各專科表現有落差,尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題,Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-3.5、GPT-4和Bard在泌尿婦科檢查的表現。結果顯示GPT-4回答問題最多,其次是GPT-3.5和Bard。三者皆展現邏輯推理,Bard最常參考來源。GPT-4和Bard引用期刊文章和學會指南,GPT-3.5引用書籍和網站。雖GPT-4表現最佳,但無一及格。建議臨床醫師使用語言模型時要謹慎,等待更多證據。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究比較了OpenAI的ChatGPT和Google的Bard在提供美容手術病人指導的表現,特別針對拉皮、鼻整形和眉毛提升手術。結果顯示,ChatGPT的平均得分為8.1/10,優於Bard的7.4/10,且在準確性、全面性等方面表現更佳。不過,Bard的回應速度較快。儘管如此,兩者的表現仍有待改進,需進一步開發和驗證才能推薦用於美容外科實踐。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT和Bard在病理學的表現,並與病理學實習生的回答進行比較。研究使用了150道選擇題,結果顯示ChatGPT的平均得分為82.2%,明顯優於Bard的49.5%和實習生的45.1%。在困難問題上,ChatGPT表現特別突出,而在簡單問題上,ChatGPT和實習生的表現相近。分析顯示,ChatGPT的一致性率高達80%-85%,而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力,但仍需持續發展和人類監督。 PubMed DOI

這項研究評估了四款熱門聊天機器人(ChatGPT-4、Bard、Perplexity 和 Claude 2)在與認證胸腔外科醫生進行考試的表現。結果顯示,聊天機器人的中位得分為1.06,而外科醫生為1.88,差異顯著(p=0.019)。外科醫生在大多數情境中表現優於聊天機器人,且聊天機器人的重大失誤率較高(0.50對0.19;p=0.016)。總體來看,研究認為聊天機器人的表現顯著不如外科醫生,提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術,手術後30天內死亡人數達420萬,因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應,並由外科醫生評估。 主要發現包括: - ChatGPT-4o在準確性(4.12/5)和相關性(4.46/5)上表現優異,潛在危害性低(0.22/5)。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少,但準確性高於大型手術。 研究建議將GPT-4o整合進醫院系統,以提供即時可靠的信息,提升病人滿意度和知情決策能力。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-4.0 和 ERNIE Bot-4.0,在外科住院醫師考試問題上的表現,並與人類住院醫師進行比較。分析了596個問題,結果顯示兩者在正確性上無顯著差異,但ERNIE Bot-4.0的表現始終優於ChatGPT-4.0。在210個有提示的問題中,ERNIE Bot-4.0的表現顯著優於ChatGPT-4.0及人類住院醫師,並在住院醫師的分數中排名前95%。總體來看,ERNIE Bot-4.0在此情境中表現更佳。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI