原始文章

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 PubMed DOI


站上相關主題文章列表

大型語言模型如ChatGPT在骨科領域扮演重要角色,能提供簡單易懂的醫療資訊給患者、醫生和研究人員。雖然ChatGPT在回答骨科問題上表現最好,但仍需留意回答可能不完整或過時的情況。未來應進一步研究LLM聊天機器人在骨科領域的應用挑戰和潛力。 PubMed DOI

研究比較了接受關節成形術培訓的護士和一個名為ChatGPT的人工智慧模型對於膝蓋手術後常見病人問題的回答。骨科外科醫師評估後發現,兩者大多數情況下都能提供適當的回應。病人對ChatGPT的回答較為舒適,但對於信任人工智慧提供的醫療資訊則感到不太確定。ChatGPT有助於提供正確的手術後資訊,可能降低成本並保持病人滿意度,但可信度和與醫療目標的一致性至關重要。 PubMed DOI

急性髖部骨折對公共健康,特別是老年人,造成重大挑戰。本研究評估ChatGPT-4.0在提供骨折治療建議的準確性,並與美國骨科醫學會(AAOS)的標準進行比較。結果顯示,ChatGPT-4.0的評分與AAOS有正相關,但在長髖髓釘的評估上存在顯著差異,且高估了全髖關節置換等治療的適當性。總體而言,ChatGPT-4.0在急性髖部骨折治療建議上不完全可靠,需進一步改進以符合醫療指導方針,提升病人治療效果。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

單間室膝關節置換術(UKR)在末期單間室膝關節骨關節炎患者中越來越受重視,但選擇合適候選者仍有爭議。本研究探討了ChatGPT等自然語言處理程式在評估患者接受全膝關節置換術(TKR)或UKR資格的有效性。結果顯示,ChatGPT與73位外科醫生的意見僅有15.6%不合,且在識別UKR候選者方面的敏感性達0.91,正確預測值為0.87。此外,ChatGPT在決策中表現出更高的信心。研究顯示,ChatGPT能有效協助外科決策。 PubMed DOI

這篇綜述探討大型語言模型(LLMs)在骨科的應用,指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究,主要集中在臨床實踐。結果顯示,LLMs的準確率差異很大,診斷準確率從55%到93%不等,ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞,但預計不會取代骨科專業人員,反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗,以了解其最佳應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Claude,在脊椎病理的外科決策及放射影像解讀的有效性,並與經驗豐富的脊椎外科醫生進行比較。結果顯示,雖然LLMs能詳細描述MRI影像,但在準確識別病變及外科決策上表現不佳,準確率僅20%,遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力,但需進一步發展以克服現有限制,並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

膝關節骨關節炎(OA)對患者生活品質影響深遠,常需手術。雖然全膝關節置換術(TKA)常見,但年輕的單側膝關節OA患者可能更適合高胫骨截骨術(HTO)。有效的患者教育至關重要,但許多線上健康資訊對一般人來說過於複雜。研究探討定制版ChatGPT是否能提升膝關節OA和HTO的教育可讀性與準確性。結果顯示,微調後的ChatGPT在可讀性和資訊質量上均有顯著改善,顯示定制AI工具能讓醫療資訊更易理解。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI