原始文章

這項研究發現,ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯,尤其是是非題答對率更高。經兩位風濕科醫師評分,答案正確且一致性高,部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具,有助提升風濕科的循證與個人化醫療。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),如ChatGPT-3.5和GPT-4,在風濕性疾病治療計畫的潛力,並與臨床風濕病學委員會(RB)的計畫進行比較。結果顯示,68.8%的案例中RB的計畫更受偏好,GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞,且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質,但RB的計畫在遵循指導方針和整體品質上表現更佳,建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

這項研究評估了ChatGPT在回答有關重組帶狀疱疹疫苗(RZV)對風濕性和肌肉骨骼疾病患者的問題時的準確性和完整性。研究使用20個基於CDC、ACIP和ACR指導方針的提示,結果顯示ChatGPT的平均準確性得分為4.04,完整性得分為2.3。雖然表現不錯,但研究強調需謹慎對待潛在的錯誤資訊,並強調驗證大型語言模型作為健康資訊來源的重要性。 PubMed DOI

這項研究評估了AI工具,特別是ChatGPT 3.5和4.0,在提供低背痛患者教育的效果。結果顯示,ChatGPT 4.0在回應質量上明顯優於3.5,得分分別為1.03和2.07,且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳,顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-4在提供心房顫動相關資訊的準確性。研究使用108個結構化問題,涵蓋治療選擇和生活方式調整,由三位心臟科醫師根據準確性、清晰度和臨床相關性評估其回答。結果顯示,ChatGPT-4在「生活方式調整」和「日常生活與管理」表現良好,但在較複雜的問題上則表現不佳。整體而言,雖然它在簡單主題上有潛力,但對於需要深入臨床見解的複雜問題仍有局限。 PubMed DOI

這項研究發現,ChatGPT(GPT-4)在解釋肌肉骨骼疾病資訊時表現不錯,但在提供復健建議時內容較不完整且穩定度不足。評審者對疾病資訊的評價較一致,但對復健建議的看法分歧。整體來說,ChatGPT可作為輔助工具,但目前還無法取代物理治療師的專業判斷,臨床應用上還需再加強。 PubMed DOI

這項研究發現,ChatGPT 4o針對不同國家提問的oJIA治療問題,回答內容在正確性上差不多,但用詞和重點會因地區而異。整體來說,答案不太好讀,專家對是否符合指引的看法也不一致,顯示AI醫療資訊評估有難度。提醒大家,使用LLM產生的醫療資訊時要特別小心,尤其要注意地區差異。 PubMed DOI

這項研究發現,Gemini 2.0的答案最容易閱讀,ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用,且ChatGPT-4o的內容和指引最接近。整體來說,ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI