Application of generative language models to orthopaedic practice.
將生成式語言模型應用於骨科實踐。 BMJ Open 2024-03-18

研究發現GPT-3和ChatGPT能寫臨床信函及預測骨科治療，ChatGPT表現較準確。然而，兩者有時會漏資訊或提供錯誤指導。未來若開發醫療專用語言模型，或許能提升對臨床醫師的幫助。 PubMed DOI

Use and Application of Large Language Models for Patient Questions following Total Knee Arthroplasty.
全膝關節置換手術後患者問題的大型語言模型的使用與應用。 J Arthroplasty 2024-03-15

研究比較了接受關節成形術培訓的護士和一個名為ChatGPT的人工智慧模型對於膝蓋手術後常見病人問題的回答。骨科外科醫師評估後發現，兩者大多數情況下都能提供適當的回應。病人對ChatGPT的回答較為舒適，但對於信任人工智慧提供的醫療資訊則感到不太確定。ChatGPT有助於提供正確的手術後資訊，可能降低成本並保持病人滿意度，但可信度和與醫療目標的一致性至關重要。 PubMed DOI

Evaluation of large language models performance against humans for summarizing MRI knee radiology reports: A feasibility study.
大型語言模型在摘要 MRI 膝部放射學報告方面與人類表現的評估：可行性研究。 Int J Med Inform 2024-04-14

研究比較了不同大型語言模型在放射學自動摘要生成的效果，重點在於準確的摘要對準確傳達放射學發現至關重要。研究使用T5和BART模型進行微調和零-shot學習，並與RNN進行比較。結果顯示，T5模型在Rouge-L分數達到0.638，且人類評判顯示T5生成的摘要與專業放射科醫師相似度高達70%。研究指出，自然語言處理和語言模型技術的進步有助於提升放射學摘要生成工具，對放射科醫師的工作有所助益。 PubMed DOI

Use of natural language processing techniques to predict patient selection for total hip and knee arthroplasty from radiology reports.
使用自然語言處理技術從放射學報告預測全髖關節和膝關節置換手術的病人選擇。 Bone Joint J 2024-06-30

研究利用大型語言模型（LLM）的自然語言處理（NLP）技術，從放射學報告中預測適合進行髖關節或膝關節置換手術的病人。結果顯示在預測全髖關節置換術（THA）的病人上表現不錯，但對全膝關節置換術（TKA）的預測則有待加強。外部驗證顯示，將模型應用於新的臨床數據時，需要進一步的測試和訓練。 PubMed DOI

Can Large Language Models (LLMs) Predict the Appropriate Treatment of Acute Hip Fractures in Older Adults? Comparing Appropriate Use Criteria With Recommendations From ChatGPT.
大型語言模型 (LLMs) 能否預測老年人急性髖骨骨折的適當治療？比較適當使用標準與 ChatGPT 的建議。 J Am Acad Orthop Surg Glob Res Rev 2024-08-13

急性髖部骨折對公共健康，特別是老年人，造成重大挑戰。本研究評估ChatGPT-4.0在提供骨折治療建議的準確性，並與美國骨科醫學會（AAOS）的標準進行比較。結果顯示，ChatGPT-4.0的評分與AAOS有正相關，但在長髖髓釘的評估上存在顯著差異，且高估了全髖關節置換等治療的適當性。總體而言，ChatGPT-4.0在急性髖部骨折治療建議上不完全可靠，需進一步改進以符合醫療指導方針，提升病人治療效果。 PubMed DOI

Custom Large Language Models Improve Accuracy: Comparing Retrieval Augmented Generation and Artificial Intelligence Agents to Non-Custom Models for Evidence-Based Medicine.
自訂大型語言模型提升準確性：比較檢索增強生成和人工智慧代理與非自訂模型在循證醫學中的表現。 Arthroscopy 2024-11-09

這項研究探討了基於檢索增強生成（RAG）的大型語言模型（LLMs）在提供前交叉韌帶（ACL）損傷資訊的準確性。研究人員編輯了100個問題和答案，並測試了不同模型的表現。結果顯示，未整合RAG的模型準確率低於60%，但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率，而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性，對醫學領域的LLMs應用提供了支持。 PubMed DOI

Examining the Role of Large Language Models in Orthopedics: Systematic Review.
大型語言模型在骨科中的角色探討：系統性回顧。 J Med Internet Res 2024-11-15

這篇綜述探討大型語言模型（LLMs）在骨科的應用，指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究，主要集中在臨床實踐。結果顯示，LLMs的準確率差異很大，診斷準確率從55%到93%不等，ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞，但預計不會取代骨科專業人員，反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗，以了解其最佳應用。 PubMed DOI

Comparative Analysis of Large Language Models and Spine Surgeons in Surgical Decision-Making and Radiological Assessment for Spine Pathologies.
大型語言模型與脊椎外科醫生在脊椎病理的手術決策與影像評估中的比較分析。 World Neurosurg 2024-12-02

這項研究評估了大型語言模型（LLMs），如ChatGPT和Claude，在脊椎病理的外科決策及放射影像解讀的有效性，並與經驗豐富的脊椎外科醫生進行比較。結果顯示，雖然LLMs能詳細描述MRI影像，但在準確識別病變及外科決策上表現不佳，準確率僅20%，遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力，但需進一步發展以克服現有限制，並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

Enhancing Access to Orthopedic Education: Exploring the Potential of Generative Artificial Intelligence (AI) in Improving Health Literacy on Rotator Cuff Injuries.
增強骨科教育的可及性：探索生成式人工智慧 (AI) 在提升肩袖損傷健康素養方面的潛力。 Cureus 2024-12-03

這項研究強調健康素養對健康結果的重要性，並評估生成式人工智慧在重寫旋轉袖損傷病人教育材料的有效性，目標是達到八年級的閱讀水平。研究收集了來自頂尖骨科醫院的教育材料，並利用人工智慧簡化語言。結果顯示可讀性顯著改善，字數也減少，顯示人工智慧能有效創造易懂的教育內容。研究建議醫院管理者和骨科醫生考慮使用這些工具，以提升教育材料的清晰度和有效性。 PubMed DOI

Can a Large Language Model Interpret Data in the Electronic Health Record to Infer Minimum Clinically Important Difference Achievement of Knee Osteoarthritis Outcome Score-Joint Replacement Score Following Total Knee Arthroplasty?
大型語言模型能否解讀電子健康紀錄中的數據，以推斷全膝關節置換術後膝關節骨關節炎結果評分-關節置換評分的最小臨床重要差異達成情況？ J Arthroplasty 2025-03-26

這項研究探討了大型語言模型（LLM），特別是ChatGPT 3.5，分析電子健康紀錄（EHR）筆記的潛力，判斷全膝關節置換術（TKA）患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異（MCID）。研究發現，ChatGPT 3.5的敏感性高達97%，但特異性僅33%，整體準確率為65%。相比之下，外科醫生的敏感性為90%，特異性63%，準確率76%。結論指出，LLM在識別改善患者方面表現良好，但仍需改進以提升其臨床應用的準確性。 PubMed DOI

原始文章

站上相關主題文章列表