原始文章

系統性紅斑性狼瘡(SLE)是一種複雜的自體免疫疾病,對患者造成長期挑戰。這項研究探討大型語言模型(LLMs)和生成式人工智慧(genAI)在分析醫療紀錄及評估SLE標準的潛力。研究分析了78名患者的紀錄,結果顯示genAI在某些標準的評估上與臨床分類一致,但在其他標準上準確率較低,整體預測成功率為72%。這表明genAI可能成為醫療專業人員評估SLE的有用工具,但仍需改進以提升準確性。 PubMed DOI


站上相關主題文章列表

研究比較了患者對風濕病問題的大型語言模型(LLM)聊天機器人和醫師回答的評價。結果顯示,患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同,患者更難分辨AI生成的答案。總結來說,患者對AI回答的看法與醫師相似,但風濕病專家則認為AI回答表現較差。 PubMed DOI

這項研究探討大型語言模型(LLMs)在識別接受免疫檢查點抑制劑(ICI)治療患者的免疫相關不良事件(irAEs)中的應用,並與傳統手動裁定及ICD代碼進行比較。研究分析了超過12年的住院紀錄,發現LLMs在檢測irAEs的敏感性顯著高於ICD代碼,且效率更佳,平均每份病歷僅需9.53秒。總體來說,LLMs被認為是檢測irAEs的有效工具,提供更高的敏感性和效率。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例,使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示,ChatGPT-4的前10名診斷中,最終診斷納入率最高,達86.7%,其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者,突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

這篇系統性回顧探討了自然語言處理(NLP)和大型語言模型(LLMs)在風濕病學的應用,特別是在分析非結構化臨床文本方面的成效,能提升疾病檢測、診斷及病人管理。研究從1491篇文章中篩選出35項,著重於NLP模型的原創研究。結果顯示,這些模型在識別類風濕性關節炎、脊椎關節炎及痛風等疾病上準確性高,並在疾病管理及預測方面展現潛力。不過,仍需進一步研究以應用於罕見及複雜疾病,並克服現有限制,以便更好地融入臨床實踐。 PubMed DOI

這項研究顯示,風濕病醫師在使用人工智慧(AI)方面的現狀不佳,73%的醫師在日常工作中並未使用AI。大多數受訪者(88%)對AI的了解評價為低到中等,84%希望接受大型語言模型(LLMs)的專門訓練。儘管使用情況有限,60%的醫師認為AI能提升病患照護,62%期待減輕工作負擔。他們特別看好AI在診斷、撰寫醫療報告和數據分析的應用,但對醫療決策責任和數據安全仍有顧慮。總體來看,醫師對AI的實施和訓練機會充滿興趣。 PubMed DOI

最近,LLaMA3的生成式人工智慧在大型語言模型的診斷性能上有顯著提升。一項研究分析了392篇2022至2023年發表的案例報告,結果顯示LLaMA3在79.6%的案例中將最終診斷列入前10名,而LLaMA2僅49.7%。此外,LLaMA3在前5名和首要診斷的表現也更佳,分別為63%對38%和33.9%對22.7%。整體來看,LLaMA3的診斷性能改善了近1.5倍,但在臨床應用上仍需謹慎,因為這些AI模型尚未獲得醫學診斷的批准。 PubMed DOI

人工智慧(AI)正顯著改變風濕病學的研究,提升診斷、預後和治療預測的能力。研究者探索AI如何簡化工作流程、改善藥物發現及優化臨床試驗。機器學習在準確分類風濕性疾病和預測治療結果方面表現出色,並利用多種數據來源。生成式AI也逐漸成為自動化文獻回顧和支持臨床決策的重要工具。本文討論AI在風濕病學的應用及其面臨的倫理和監管挑戰,強調謹慎整合以發揮其潛力。 PubMed DOI

生成式人工智慧(GAI)在醫療領域有顯著進展,但對於罕見疾病如原發性免疫疾病(PI)的輔助效果仍待探討。本研究評估了六種大型語言模型(LLMs)在提供PI臨床指導的表現。結果顯示,GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%,其中GPT-4o以96.2%領先。其他模型表現較差,準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力,但仍需改進以提升臨床實用性。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI