原始文章

這項研究發現,ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯,尤其是是非題答對率更高。經兩位風濕科醫師評分,答案正確且一致性高,部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具,有助提升風濕科的循證與個人化醫療。 PubMed DOI


站上相關主題文章列表

臨床前研究指出,像ChatGPT這樣的大型語言模型可能有助於區分炎症性風濕疾病與其他疾病。一項研究比較了ChatGPT-4的診斷準確性與風濕病專家在患者數據上的表現,結果顯示ChatGPT-4在正確診斷方面與專家相當,尤其在炎症性風濕疾病案例中。雖然在檢測疾病方面敏感度高,但特異性較低。總結來說,ChatGPT-4可能是診斷炎症性風濕疾病的實用工具。 PubMed DOI

研究發現ChatGPT在回答開放性問題上表現不錯,但對於風濕疾病的替代醫學資訊則缺乏科學支持。問題的提法影響了回答的品質,引導性問題可能導致不夠可靠的資訊。因此,對於風濕疾病的替代醫學資訊,建議不要完全依賴ChatGPT,因為其回答缺乏科學根據。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT-3.5和GPT-4,在風濕性疾病治療計畫的潛力,並與臨床風濕病學委員會(RB)的計畫進行比較。結果顯示,68.8%的案例中RB的計畫更受偏好,GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞,且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質,但RB的計畫在遵循指導方針和整體品質上表現更佳,建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在診斷和管理異位性皮膚炎及自體免疫性水泡性皮膚病的效果。五位皮膚科醫生針對50份問卷的回應進行評估,發現兩個版本對異位性皮膚炎的理解不錯,且4.0表現優於3.5,但都無法超越資深醫療專業人員的診斷能力。在診斷特定的自體免疫性水泡性皮膚病案例時,兩個版本的表現都不夠精確。總體來看,雖然ChatGPT在異位性皮膚炎的基本詢問上表現良好,但在AIBD的診斷上仍有待加強。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Google Gemini,在風濕病學考試問題上的表現。分析了420個問題,結果顯示ChatGPT-4o的準確率為86.9%,遠高於Google Gemini的60.2%。重複詢問相同問題時,ChatGPT-4o的準確率維持在86.7%。研究指出,ChatGPT-4o在基礎與臨床科學、骨關節炎及類風濕性關節炎方面表現優異,顯示人工智慧在臨床環境中的潛力,未來應探索更多真實臨床情境。 PubMed DOI

這項研究評估了ChatGPT-4在提供自體免疫性肝炎患者個人化諮詢的效果,分析了其對12個問題的回應。結果顯示,準確性中位數得分為5(滿分6分),但完整性和安全性得分較低。特別是診斷後的追蹤問題表現不佳,顯示出低準確性和完整性。專家對聊天機器人的評價共識有限,顯示出其回應的可靠性不足。研究建議需進一步探討如何有效整合AI聊天機器人於臨床諮詢中。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

這項研究評估了ChatGPT在回答有關重組帶狀疱疹疫苗(RZV)對風濕性和肌肉骨骼疾病患者的問題時的準確性和完整性。研究使用20個基於CDC、ACIP和ACR指導方針的提示,結果顯示ChatGPT的平均準確性得分為4.04,完整性得分為2.3。雖然表現不錯,但研究強調需謹慎對待潛在的錯誤資訊,並強調驗證大型語言模型作為健康資訊來源的重要性。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-4在提供心房顫動相關資訊的準確性。研究使用108個結構化問題,涵蓋治療選擇和生活方式調整,由三位心臟科醫師根據準確性、清晰度和臨床相關性評估其回答。結果顯示,ChatGPT-4在「生活方式調整」和「日常生活與管理」表現良好,但在較複雜的問題上則表現不佳。整體而言,雖然它在簡單主題上有潛力,但對於需要深入臨床見解的複雜問題仍有局限。 PubMed DOI