原始文章

生成式人工智慧(AI)透過聊天機器人增強了人與人之間的連結。本研究評估了三個聊天機器人(ChatGPT、Bard和Perplexity)在解答2008至2023年西班牙MIR考試的骨科手術和創傷學問題上的表現。結果顯示,ChatGPT的正確率最高(72.81%),Bard在可讀性和全面性上表現最佳。雖然這些機器人展現了潛力,但仍需謹慎使用,因為它們可能出現錯誤,人類專業知識仍然更為重要。 PubMed DOI


站上相關主題文章列表

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究評估了ChatGPT 4.0在2022年骨科與創傷學專科考試的多選題表現,分析了95道題目,正確率為61.05%。結果顯示,無論問題字數或分類,表現差異不大。雖然ChatGPT在骨科知識上表現不錯,但仍需進一步發展和人類監督,以確保其有效性。這項研究屬於第四級證據,屬於病例系列。 PubMed DOI

本研究探討人工智慧(AI)在骨科教育,特別是肩膀和肘部手術的應用。從AAOS ResStudy問題庫中選取50個相關問題,評估不同AI聊天機器人的表現。結果顯示,聊天機器人的平均準確率為60.4%,其中GPT-4o表現最佳,達74%。雖然AI在簡單問題上表現較佳,但仍需專家判斷的輔助,顯示AI在醫學教育中的潛力與局限性。 PubMed DOI

這項研究比較 ChatGPT-3.5、ChatGPT-4 和 Gemini 在土耳其骨科專科考試的表現,發現 ChatGPT-4 表現最好,某些領域正確率高達 95%,甚至超越住院醫師。題目越短,AI 答對率越高。結果顯示 ChatGPT-4 在醫學教育和臨床決策上很有潛力,但還是需要持續評估和改進。 PubMed DOI

這項研究發現,AI 聊天機器人(像是ChatGPT、Copilot等)在回答兒童下頜骨延長術常見照護問題時,雖然Copilot表現最好,但整體來說,答案不夠可靠、資料來源不足,而且用詞太艱深,病人和家屬很難看懂,暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI

這項研究比較ChatGPT-4o和Gemini 2.0 Flash在回答半月板撕裂常見問題的準確性。兩者回答句數和可驗證比例差不多。只用UpToDate驗證,約58%內容正確;加上期刊文章則提升到84%。兩款AI準確度沒顯著差異,但多元驗證來源能提升正確性。總結來說,AI可輔助骨科衛教,但還是無法取代醫師專業判斷。 PubMed DOI