原始文章

這項研究評估了多種人工智慧模型在識別外科器械方面的表現,包括ChatGPT-4、ChatGPT-4o、Gemini和SID 2.0。研究使用92張高解析度圖像,涵蓋25種器械,並根據準確度等指標進行評估。結果顯示,ChatGPT-4o的準確度最高,達89.1%,而Gemini表現最差,僅44.6%。雖然這些模型能有效分類外科器械,但在精確識別特定器械類型上仍面臨挑戰,顯示出進一步開發的必要性,以提升準確度並確保病人安全。 PubMed DOI


站上相關主題文章列表

ChatGPT-4在口腔外科上表現不錯,但僅準確率71.7%,應視為輔助而非取代。未來需透過專家監督及深入研究,才能安全有效地整合人工智慧於口腔外科決策中。 PubMed DOI

研究比較了OpenAI的ChatGPT和Google的Gemini在手部受傷分類和手術治療建議方面的表現。Gemini在手部受傷分類能力表現優異,正確率達70.6%,而ChatGPT則為0.87。ChatGPT在手術建議方面較敏感,但特異性較Gemini低。Gemini也展現更高的回應可複製性。研究顯示大型語言模型在醫學決策上有潛力,Gemini通常優於ChatGPT。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究顯示人工智慧(AI)和大型語言模型(LLMs),像是ChatGPT和GEMINI,對小兒外科的影響深遠。AI提升了手術的精確度,並在術前、術中和術後提供個人化護理。在手術室內,AI能即時支援決策,增強手術的安全性和準確性。LLMs則簡化醫學術語,幫助醫學教育和病患溝通。不過,倫理問題、數據隱私和人類監督等挑戰仍需解決。總的來說,AI有潛力改善小兒外科和病患護理,整合時應謹慎且充滿希望。 PubMed DOI

這項研究探討了人工智慧工具,特別是ChatGPT-4和DALL·E 3,在減重手術醫學教育中的應用。研究主要評估ChatGPT-4識別手術的能力及DALL·E 3生成插圖的有效性。結果顯示,ChatGPT-4僅準確識別可調式胃帶手術,其他五種手術均錯誤分類;而DALL·E 3也無法生成準確插圖。這些結果顯示這兩個工具在減重手術教育上的重大限制,並強調需要進一步研究以提升其準確性和可靠性。 PubMed DOI

人工智慧(AI)在整形外科的應用潛力巨大,能提升病人照護的各個階段,包括術前規劃、手術執行和術後管理。一項研究比較了OpenAI的ChatGPT-4o(omni)和Alphabet的Gemini Advanced兩個AI模型在持續醫學教育(CME)文章的學習能力。結果顯示,人類住院醫師在閱讀後的分數明顯提升,而Gemini Advanced的表現更佳,顯示AI在醫學教育中可作為有效的輔助工具,幫助縮短理論與實踐之間的差距。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

將人工智慧(AI)應用於醫療,特別是複雜的單吻合胃旁路手術(OAGB),能顯著提升決策支持。本研究評估了三個AI模型:ChatGPT-4.0、ChatGPT-Omni和Gemini AI,針對OAGB的180個問題進行分析。結果顯示,ChatGPT-Omni在準確性上優於其他兩者,尤其在是非題和多選題中表現突出,平均得分為5.62。儘管如此,研究也指出在更複雜的臨床情境中,仍需進一步驗證AI的效能,強調持續研究的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI