原始文章

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI


站上相關主題文章列表

生成式人工智慧(AI)透過聊天機器人增強了人與人之間的連結。本研究評估了三個聊天機器人(ChatGPT、Bard和Perplexity)在解答2008至2023年西班牙MIR考試的骨科手術和創傷學問題上的表現。結果顯示,ChatGPT的正確率最高(72.81%),Bard在可讀性和全面性上表現最佳。雖然這些機器人展現了潛力,但仍需謹慎使用,因為它們可能出現錯誤,人類專業知識仍然更為重要。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

這項研究評估了OpenAI的ChatGPT和微軟的Copilot在解剖性全肩關節置換術(aTSA)和反向全肩關節置換術(rTSA)資訊上的質量與可讀性。研究發現,兩者的資訊質量均為「良好」,但Copilot在政策問題上表現更佳,且引用的學術來源較多,顯示其資訊更可靠且易於理解。雖然兩者都能提供有用的資訊,但仍建議將它們視為輔助資源,而非主要資訊來源,因為語言複雜性可能影響病人的理解。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

研究比較了Google Gemini、Microsoft Copilot和OpenAI ChatGPT三款AI對ACL損傷及重建資訊的品質。Copilot表現最好,資訊最可靠、引用最多,但三款AI的回答都偏難,較適合大學程度,一般人可能看不懂。AI不能取代醫師,建議還是要諮詢專業醫療人員。 PubMed DOI

這項研究發現,ChatGPT 在回答踝關節和鎖骨骨折手術常見問題時,比 Google 更準確、內容更貼近臨床,還引用較多學術資料。結果顯示,像 ChatGPT 這類 AI 有機會提升病人獲取線上醫療資訊的品質與可靠性,未來在臨床照護上很有發展潛力。 PubMed DOI

這項研究發現,AI 聊天機器人(像是ChatGPT、Copilot等)在回答兒童下頜骨延長術常見照護問題時,雖然Copilot表現最好,但整體來說,答案不夠可靠、資料來源不足,而且用詞太艱深,病人和家屬很難看懂,暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI