原始文章

這項研究評估了ChatGPT-4o在遠端橈骨骨折治療適當性評分的準確性,並與美國骨科醫學會的指導方針進行比較。分析了240個病人情境,考量骨折類型、受傷機制及病人健康狀況。主要發現顯示,對於不同治療選項的評分誤差不一,掌側鎖定板的誤差最小,而背側鋼板的誤差最大。雖然某些治療方法之間有正相關,但整體上ChatGPT-4o偏向保守治療,這引發了對其在醫療建議可靠性上的疑慮。 PubMed DOI


站上相關主題文章列表

**引言** 人工智慧(AI)在醫療領域的應用日益普遍。本研究比較臨床醫師制定的骨折管理計畫與ChatGPT和Google Gemini生成的計畫。 **方法論** 本研究回顧70例孤立性骨折案例,排除複雜骨折和不明診斷。將臨床細節輸入AI,並比較其生成的計畫與實際文件計畫,重點在治療建議和後續策略。 **結果** Google Gemini僅有19%案例符合實際計畫,主要因過度概括和模糊性。ChatGPT則有34%符合,過度概括為主要差異。AI計畫與臨床計畫之間的差異具統計意義(p < 0.001)。 **結論** 這兩個AI工具在臨床管理計畫中顯示顯著不一致。雖然ChatGPT較接近專業知識,但兩者皆缺乏必要的臨床精確性,無法取代臨床醫師的角色。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究探討了ChatGPT-4在提供高能量下肢傷害的肢體保留與截肢建議的有效性,並與美國骨科醫學會(AAOS)的指導方針進行比較。分析了196個病患情境,結果顯示ChatGPT-4的建議通常與AAOS相似,但在評估治療選擇的適當性時,傾向於低估。兩者之間的相關性顯著,顯示ChatGPT-4可成為醫生在複雜臨床決策中的有用工具,但建議仍需謹慎對待。 PubMed DOI

本研究探討生成預訓練變壓器(ChatGPT)在放射影像中分類股骨轉子周圍骨折的準確性。研究結果顯示,ChatGPT能根據修訂的AO/OTA分類系統將骨折分為穩定(A1)和不穩定(A2),其分類一致性(κ = 0.420)與骨科醫生相似,顯示中等可靠性。這表明ChatGPT可有效整合進臨床工作流程,並在數據收集上需求較低,對醫療應用具潛力。 PubMed DOI

這項研究評估了兩個人工智慧語言模型,ChatGPT 和 iFlytek Spark,在生成踝部骨折手術後加速康復(ERAS)建議的表現。結果顯示,ChatGPT 在正確回答專家共識問題上表現較佳,達82.9%,但在某些領域仍有不一致。iFlytek Spark 則為62.9%,回應較為一般化。兩者在65.7%的問題上達成一致,ChatGPT 提供的建議更具體。研究強調了精煉人工智慧模型的重要性,以確保其與醫療指導一致,並需醫師監督以確保安全性。未來應提升人工智慧在骨科護理中的可靠性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現,並與四位專科醫生進行比較。研究涵蓋20個問題,涉及診斷、管理及病人諮詢等方面。結果顯示,AI在回應的完整性、幫助性和質量上均優於人類醫生,且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上,AI表現尤為出色。整體而言,AI在急診骨科諮詢中展現出高質量建議的潛力,未來可望增強臨床決策。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI

這項研究發現,ChatGPT-4o在回答鎖骨中段骨折問題時,常混合正確與錯誤資訊,且多數引用的文獻都是假的或錯誤的。整體來說,ChatGPT在這方面的準確性和可靠性有限,建議臨床應用前要特別小心評估風險。 PubMed DOI