原始文章

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI


站上相關主題文章列表

大型語言模型如ChatGPT在骨科領域扮演重要角色,能提供簡單易懂的醫療資訊給患者、醫生和研究人員。雖然ChatGPT在回答骨科問題上表現最好,但仍需留意回答可能不完整或過時的情況。未來應進一步研究LLM聊天機器人在骨科領域的應用挑戰和潛力。 PubMed DOI

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術,包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題,並將其回答與專家意見比較,結果顯示平均得分為2.43,顯示與專家意見有一定一致性。研究指出,ChatGPT可能成為病人了解手術選擇的有用工具,但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應,結果顯示兩者表現都不錯,平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4,顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力,對醫療專業人員和病人皆有價值。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Google Gemini,在風濕病學考試問題上的表現。分析了420個問題,結果顯示ChatGPT-4o的準確率為86.9%,遠高於Google Gemini的60.2%。重複詢問相同問題時,ChatGPT-4o的準確率維持在86.7%。研究指出,ChatGPT-4o在基礎與臨床科學、骨關節炎及類風濕性關節炎方面表現優異,顯示人工智慧在臨床環境中的潛力,未來應探索更多真實臨床情境。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI