原始文章

這項研究評估了GPT-4在解讀美國和中國骨關節炎治療指導方針的能力,以及在骨科病例診斷和管理上的有效性。研究結果顯示,GPT-4對指導方針的正確匹配率為46.4%,準確度得分為4.3±1.6,完整性得分為2.8±0.6。在模擬案例中,超過88%的回應被認為是全面的。總體來看,GPT-4在骨科實踐和病人教育上有潛力,但在臨床應用上仍需進一步驗證。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

這項研究評估了一本教科書與GPT-4在非創傷性脊髓損傷(NTSCI)方面的可讀性與可靠性,特別針對ABPMR認證。主要發現包括: 1. 教科書可讀性分數為14.5,GPT-4為17.3,顯示GPT-4的解釋較複雜(p < 0.001)。 2. GPT-4的解釋中有86%屬於「非常困難」,教科書則為58%(p = 0.006)。 3. GPT-4能簡化九個複雜解釋,保持字數不變,顯示其適應性。 4. GPT-4的準確率為96%,顯著優於GPT-3.5的84%(p = 0.046)。 總體而言,研究顯示GPT-4在醫學教育中具潛力,能提供準確且易懂的解釋。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

這項研究強調了人工智慧,特別是GPT-4模型,在腰椎融合手術的證據基礎醫學指導方針中的應用潛力。根據報導,北美脊椎學會成員的符合率僅為60%。研究使用17個臨床案例評估GPT-4的表現,結果顯示其在88.2%的案例中與指導方針一致,顯示出顯著的關聯性。此外,GPT-4的回答互查可靠性也顯示出良好的協議。這表明GPT-4等人工智慧模型可能成為提升脊椎手術臨床指導遵循的重要工具,並有助於改善病人治療結果。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果,針對常見的上肢和下肢骨科疾病進行分析。結果顯示,ChatGPT-3.5的可讀性僅有2%和4%達標,而ChatGPT-4.0則有54%達標,顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異,但兩者仍被視為不可靠,無法完全取代傳統病人教育方式,應作為醫療提供者的輔助工具。 PubMed DOI

本研究探討ChatGPT-4o在分析膝關節骨關節炎(OA)X光片的能力,並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析,使用多種分級系統。結果顯示,ChatGPT-4o的識別率達100%,但詳細分級準確性僅35%,遠低於醫生的89.6%。此外,ChatGPT-4o在嚴重病例中常低估OA程度,且其評分一致性較差。雖然能快速識別,但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 PubMed DOI

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題,GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示,99%的參與者認為回應易懂,84%認為信息詳細,93%表示滿意,96%認為醫學準確。不過,只有63%認為信息完整,顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具,結合即時藥理數據庫,以提升臨床決策的準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,在運動外科和物理治療的臨床決策效果。56位專業人士使用5點李克特量表評估10個常見肌肉骨骼疾病的情境。結果顯示,GPT-4在診斷準確性、治療計畫和手術建議上均優於GPT-3.5,且內部一致性更高。研究指出,GPT-4能提升醫療診斷和治療規劃,但AI應作為決策支持工具,而非取代專家判斷,未來需進一步探索AI在臨床的應用。 PubMed DOI

這項研究發現,GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時,表現比臨床醫師更快、更完整且更精確。不過,GPT-4有時用詞太複雜,對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查,才能兼顧品質與安全。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI