原始文章

這項研究探討如何在大型語言模型中處理類別不平衡,以預測患者接受全膝關節置換術(TKA)的情況。研究人員使用ARCHERY專案的數據,訓練GatorTron模型,並比較了標準模型、類別加權和多數類別下採樣三種方法。在7,707份報告中,只有11.8%的患者接受TKA,顯示類別不平衡的問題。結果顯示,類別加權在少數類別的識別和校準上表現最佳,對於開發高效的AI模型在創傷與骨科領域非常重要。 PubMed DOI


站上相關主題文章列表

研究發現GPT-3和ChatGPT能寫臨床信函及預測骨科治療,ChatGPT表現較準確。然而,兩者有時會漏資訊或提供錯誤指導。未來若開發醫療專用語言模型,或許能提升對臨床醫師的幫助。 PubMed DOI

研究比較了接受關節成形術培訓的護士和一個名為ChatGPT的人工智慧模型對於膝蓋手術後常見病人問題的回答。骨科外科醫師評估後發現,兩者大多數情況下都能提供適當的回應。病人對ChatGPT的回答較為舒適,但對於信任人工智慧提供的醫療資訊則感到不太確定。ChatGPT有助於提供正確的手術後資訊,可能降低成本並保持病人滿意度,但可信度和與醫療目標的一致性至關重要。 PubMed DOI

研究比較了不同大型語言模型在放射學自動摘要生成的效果,重點在於準確的摘要對準確傳達放射學發現至關重要。研究使用T5和BART模型進行微調和零-shot學習,並與RNN進行比較。結果顯示,T5模型在Rouge-L分數達到0.638,且人類評判顯示T5生成的摘要與專業放射科醫師相似度高達70%。研究指出,自然語言處理和語言模型技術的進步有助於提升放射學摘要生成工具,對放射科醫師的工作有所助益。 PubMed DOI

研究利用大型語言模型(LLM)的自然語言處理(NLP)技術,從放射學報告中預測適合進行髖關節或膝關節置換手術的病人。結果顯示在預測全髖關節置換術(THA)的病人上表現不錯,但對全膝關節置換術(TKA)的預測則有待加強。外部驗證顯示,將模型應用於新的臨床數據時,需要進一步的測試和訓練。 PubMed DOI

急性髖部骨折對公共健康,特別是老年人,造成重大挑戰。本研究評估ChatGPT-4.0在提供骨折治療建議的準確性,並與美國骨科醫學會(AAOS)的標準進行比較。結果顯示,ChatGPT-4.0的評分與AAOS有正相關,但在長髖髓釘的評估上存在顯著差異,且高估了全髖關節置換等治療的適當性。總體而言,ChatGPT-4.0在急性髖部骨折治療建議上不完全可靠,需進一步改進以符合醫療指導方針,提升病人治療效果。 PubMed DOI

這項研究探討了基於檢索增強生成(RAG)的大型語言模型(LLMs)在提供前交叉韌帶(ACL)損傷資訊的準確性。研究人員編輯了100個問題和答案,並測試了不同模型的表現。結果顯示,未整合RAG的模型準確率低於60%,但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率,而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性,對醫學領域的LLMs應用提供了支持。 PubMed DOI

這篇綜述探討大型語言模型(LLMs)在骨科的應用,指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究,主要集中在臨床實踐。結果顯示,LLMs的準確率差異很大,診斷準確率從55%到93%不等,ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞,但預計不會取代骨科專業人員,反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗,以了解其最佳應用。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Claude,在脊椎病理的外科決策及放射影像解讀的有效性,並與經驗豐富的脊椎外科醫生進行比較。結果顯示,雖然LLMs能詳細描述MRI影像,但在準確識別病變及外科決策上表現不佳,準確率僅20%,遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力,但需進一步發展以克服現有限制,並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

這項研究強調健康素養對健康結果的重要性,並評估生成式人工智慧在重寫旋轉袖損傷病人教育材料的有效性,目標是達到八年級的閱讀水平。研究收集了來自頂尖骨科醫院的教育材料,並利用人工智慧簡化語言。結果顯示可讀性顯著改善,字數也減少,顯示人工智慧能有效創造易懂的教育內容。研究建議醫院管理者和骨科醫生考慮使用這些工具,以提升教育材料的清晰度和有效性。 PubMed DOI

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 PubMed DOI