原始文章

這項研究評估了多種人工智慧模型在識別外科器械方面的表現,包括ChatGPT-4、ChatGPT-4o、Gemini和SID 2.0。研究使用92張高解析度圖像,涵蓋25種器械,並根據準確度等指標進行評估。結果顯示,ChatGPT-4o的準確度最高,達89.1%,而Gemini表現最差,僅44.6%。雖然這些模型能有效分類外科器械,但在精確識別特定器械類型上仍面臨挑戰,顯示出進一步開發的必要性,以提升準確度並確保病人安全。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

人工智慧(AI)在各科學領域的應用日益增多,尤其是機器學習和自然語言處理(NLP)。本研究評估了GPT-4 AI模型在血管外科病人診斷與管理的表現,測試了57個臨床情境。結果顯示,該模型正確回答超過65%的問題,但在解釋複雜情境時仍有27%的錯誤,且14%的不準確來自過時資訊。總體而言,GPT-4具潛力成為臨床醫師的輔助工具,但仍需謹慎檢查其推理準確性。 PubMed DOI

人工智慧(AI)在整形外科的應用潛力巨大,能提升病人照護的各個階段,包括術前規劃、手術執行和術後管理。一項研究比較了OpenAI的ChatGPT-4o(omni)和Alphabet的Gemini Advanced兩個AI模型在持續醫學教育(CME)文章的學習能力。結果顯示,人類住院醫師在閱讀後的分數明顯提升,而Gemini Advanced的表現更佳,顯示AI在醫學教育中可作為有效的輔助工具,幫助縮短理論與實踐之間的差距。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這項研究評估了基於人工智慧的聊天機器人,特別是ChatGPT 3.5和Claude-instant,在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題,並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示,ChatGPT和Claude-instant都提供高質量的回應,ChatGPT的質量評分分別為86%和79.6%,而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步,可能提升醫療效率並降低成本。 PubMed DOI

將人工智慧(AI)應用於醫療,特別是複雜的單吻合胃旁路手術(OAGB),能顯著提升決策支持。本研究評估了三個AI模型:ChatGPT-4.0、ChatGPT-Omni和Gemini AI,針對OAGB的180個問題進行分析。結果顯示,ChatGPT-Omni在準確性上優於其他兩者,尤其在是非題和多選題中表現突出,平均得分為5.62。儘管如此,研究也指出在更複雜的臨床情境中,仍需進一步驗證AI的效能,強調持續研究的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別手部手術的CPT代碼上的表現,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現,Perplexity.AI在簡單程序中表現最佳,獲得15個正確結果,而對於複雜程序,則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性,未來可能成為醫療工作流程的標準部分,符合數位轉型的趨勢。 PubMed DOI

ChatGPT 在通用外科考試拿到 72.7 分,超過及格線,生理學和選擇題表現不錯,但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育,但還有不少限制,未來要再多研究和評估,才能廣泛應用。 PubMed DOI