原始文章

這項研究發現,GPT-4o自動產生的膝關節MRI報告,不僅比GPT-4o-mini更準確,還能幾乎完美預測骨關節炎嚴重程度。骨科醫師也認為這些AI報告更好用、審閱更快。整體來說,GPT-4o有機會幫助醫師減少文書工作,提升臨床效率。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

這篇綜述探討大型語言模型(LLMs)在骨科的應用,指出它們在解決相關挑戰上的潛力。研究分析了2014年1月至2024年2月間的68項相關研究,主要集中在臨床實踐。結果顯示,LLMs的準確率差異很大,診斷準確率從55%到93%不等,ChatGPT在疾病分類中的準確率範圍更是從2%到100%。雖然LLMs的表現令人鼓舞,但預計不會取代骨科專業人員,反而可作為提升臨床效率的工具。呼籲進行更多高品質的臨床試驗,以了解其最佳應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

本研究探討ChatGPT-4o在分析膝關節骨關節炎(OA)X光片的能力,並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析,使用多種分級系統。結果顯示,ChatGPT-4o的識別率達100%,但詳細分級準確性僅35%,遠低於醫生的89.6%。此外,ChatGPT-4o在嚴重病例中常低估OA程度,且其評分一致性較差。雖然能快速識別,但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 PubMed DOI

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 PubMed DOI

本研究旨在開發一個標準化流程,利用大型語言模型(LLM)從腰椎MRI報告中提取數據,並評估其與專業評分的一致性。研究分析了230名慢性下背痛患者的數據,結果顯示模型在數據提取上表現優異,平均F1分數達0.96,但與專業評分的一致性僅為中等(kappa 0.424)。特別是在側凹狹窄的報告中,低報現象明顯,顯示出需要更客觀的數據提取方法。 PubMed DOI

這項研究發現,GPT-4在為膝關節骨關節炎患者產出個人化自我管理衛教內容時,表現比臨床醫師更快、更完整且更精確。不過,GPT-4有時用詞太複雜,對健康識讀較低的患者不夠友善。未來建議AI與醫師共同審查,才能兼顧品質與安全。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI