原始文章

這項研究評估了兩個人工智慧語言模型,ChatGPT 和 iFlytek Spark,在生成踝部骨折手術後加速康復(ERAS)建議的表現。結果顯示,ChatGPT 在正確回答專家共識問題上表現較佳,達82.9%,但在某些領域仍有不一致。iFlytek Spark 則為62.9%,回應較為一般化。兩者在65.7%的問題上達成一致,ChatGPT 提供的建議更具體。研究強調了精煉人工智慧模型的重要性,以確保其與醫療指導一致,並需醫師監督以確保安全性。未來應提升人工智慧在骨科護理中的可靠性。 PubMed DOI


站上相關主題文章列表

**引言** 人工智慧(AI)在醫療領域的應用日益普遍。本研究比較臨床醫師制定的骨折管理計畫與ChatGPT和Google Gemini生成的計畫。 **方法論** 本研究回顧70例孤立性骨折案例,排除複雜骨折和不明診斷。將臨床細節輸入AI,並比較其生成的計畫與實際文件計畫,重點在治療建議和後續策略。 **結果** Google Gemini僅有19%案例符合實際計畫,主要因過度概括和模糊性。ChatGPT則有34%符合,過度概括為主要差異。AI計畫與臨床計畫之間的差異具統計意義(p < 0.001)。 **結論** 這兩個AI工具在臨床管理計畫中顯示顯著不一致。雖然ChatGPT較接近專業知識,但兩者皆缺乏必要的臨床精確性,無法取代臨床醫師的角色。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究探討了AI語言模型ChatGPT-o1與美國足踝外科醫師學會(ACFAS)2015至2022年間的臨床共識聲明之間的對齊情況。研究分析了9份文件中的129條聲明,結果顯示AI與專家之間的協議程度為公平(Cohen's kappa值0.29)。在踝關節炎和跟痛症的共識度達100%,但扁平足僅25%。此外,ChatGPT的內部可靠性變異,kappa值介於0.41到0.92之間。這顯示AI與專家意見之間仍有顯著差異,需進一步研究。此研究屬於四級回顧性隊列研究。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究評估了ChatGPT-4在急診室常見骨科情境中的表現,並與四位專科醫生進行比較。研究涵蓋20個問題,涉及診斷、管理及病人諮詢等方面。結果顯示,AI在回應的完整性、幫助性和質量上均優於人類醫生,且準確性無顯著差異。特別是在遠端橈骨骨折和外側踝骨骨折的回應上,AI表現尤為出色。整體而言,AI在急診骨科諮詢中展現出高質量建議的潛力,未來可望增強臨床決策。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI

這項研究評估了ChatGPT-4在回答全踝關節置換術(TAA)相關問題的表現。研究人員提出十二個常見問題,並請四位專科外科醫生評分其回答的準確性和清晰度。平均得分為1.8(滿分4分),顯示在事實性問題上表現尚可,但對於術後方案等細緻問題評分較低。外科醫生的評分差異顯著,顯示出不同的解讀和期望。這強調了針對特定臨床情境設計AI工具的必要性,以提升病人教育和資訊的準確性。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究發現,ChatGPT 在回答踝關節和鎖骨骨折手術常見問題時,比 Google 更準確、內容更貼近臨床,還引用較多學術資料。結果顯示,像 ChatGPT 這類 AI 有機會提升病人獲取線上醫療資訊的品質與可靠性,未來在臨床照護上很有發展潛力。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI