原始文章

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI


站上相關主題文章列表

橈骨遠端骨折常見,需準確影像檢查。研究顯示ChatGPT 4可用於診斷,準確性高於醫學生,但較手外科醫師和Gleamer BoneView™差。AI在醫學影像中有潛力,ChatGPT 4是提升診斷能力的有用工具。 PubMed DOI

研究比較了OpenAI的ChatGPT和Google的Gemini在手部受傷分類和手術治療建議方面的表現。Gemini在手部受傷分類能力表現優異,正確率達70.6%,而ChatGPT則為0.87。ChatGPT在手術建議方面較敏感,但特異性較Gemini低。Gemini也展現更高的回應可複製性。研究顯示大型語言模型在醫學決策上有潛力,Gemini通常優於ChatGPT。 PubMed DOI

這項研究探討如何在管理第五掌骨下端骨折時,整合ChatGPT-4 plus,並將其治療建議與整形外科醫生及專家小組的意見進行比較。結果顯示,各組的管理計畫中等可靠(組內相關係數為0.61)。影響手術決策的關鍵因素包括臨床上出現的剪刀現象、伸展缺損及影像學證據顯示的關節內延伸。研究結果顯示,人工智慧能提升臨床診斷與治療決策的準確性。 PubMed DOI

這項研究評估了進階AI模型ChatGPT-4在眼窩骨折手術決策中的有效性,於日內瓦大學醫院進行,涵蓋30個案例。研究分為三個階段,結果顯示ChatGPT-4在骨折診斷上達到100%準確率,治療建議的特異性也為100%。不過,對於保守治療的敏感性僅57%,顯示它能識別需要手術的病人,但對於可保守治療的病人則不太有效。整體而言,雖然ChatGPT-4在診斷上表現優異,但在非手術治療建議方面仍有待加強。 PubMed DOI

**引言** 人工智慧(AI)在醫療領域的應用日益普遍。本研究比較臨床醫師制定的骨折管理計畫與ChatGPT和Google Gemini生成的計畫。 **方法論** 本研究回顧70例孤立性骨折案例,排除複雜骨折和不明診斷。將臨床細節輸入AI,並比較其生成的計畫與實際文件計畫,重點在治療建議和後續策略。 **結果** Google Gemini僅有19%案例符合實際計畫,主要因過度概括和模糊性。ChatGPT則有34%符合,過度概括為主要差異。AI計畫與臨床計畫之間的差異具統計意義(p < 0.001)。 **結論** 這兩個AI工具在臨床管理計畫中顯示顯著不一致。雖然ChatGPT較接近專業知識,但兩者皆缺乏必要的臨床精確性,無法取代臨床醫師的角色。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT-4o在遠端橈骨骨折治療適當性評分的準確性,並與美國骨科醫學會的指導方針進行比較。分析了240個病人情境,考量骨折類型、受傷機制及病人健康狀況。主要發現顯示,對於不同治療選項的評分誤差不一,掌側鎖定板的誤差最小,而背側鋼板的誤差最大。雖然某些治療方法之間有正相關,但整體上ChatGPT-4o偏向保守治療,這引發了對其在醫療建議可靠性上的疑慮。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI