原始文章

這項研究探討大型語言模型(LLMs),如ChatGPT-3.5和GPT-4,在風濕性疾病治療計畫的潛力,並與臨床風濕病學委員會(RB)的計畫進行比較。結果顯示,68.8%的案例中RB的計畫更受偏好,GPT-4和GPT-3.5則分別為16.3%和15.0%。GPT-4在一線治療中較受青睞,且與RB的計畫在安全性上無顯著差異。雖然LLMs生成的計畫安全且高品質,但RB的計畫在遵循指導方針和整體品質上表現更佳,建議需進一步研究以提升LLMs的臨床應用。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答成人軟組織肉瘤相關臨床問題的表現,問題依據德國S3指引制定。兩位肉瘤專家對80個問題的回答進行評分。結果顯示,ChatGPT-4的表現優於ChatGPT-3.5,準確性和充分性中位數分數分別為5.5對5.0和5.0對4.0。雖然兩者在某些主題上相似,但ChatGPT-4在一般治療及四肢/軀幹肉瘤方面更佳。不過,兩者偶爾也會提供誤導性和潛在危險的信息,強調臨床應用需謹慎及人類監督的重要性。 PubMed DOI

人工智慧(AI)如ChatGPT-4正在改變醫療保健,特別是在脊椎轉移的治療決策上。本研究評估了ChatGPT-4在五個脊椎轉移案例中的表現,並與五位經驗豐富的脊椎外科醫生進行比較。結果顯示,ChatGPT的建議在73%的案例中與醫生一致,但多數建議偏向一般性,缺乏具體臨床指導。這顯示出AI在複雜醫療決策中的潛力與限制,未來需進一步研究以提升其應用效果。 PubMed DOI

這項研究評估了AI工具,特別是ChatGPT 3.5和4.0,在提供低背痛患者教育的效果。結果顯示,ChatGPT 4.0在回應質量上明顯優於3.5,得分分別為1.03和2.07,且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳,顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs(如ChatGPT、Gemini等)對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%,但在劑量和療程的準確性上較低(50%-75%)。LLMs的表現也不錯,但在參考指導方針的能力上不一致,特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險,雖然它們在抗生素處方上有潛力,但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究發現,ChatGPT-4在依循EULAR類風濕性關節炎指引時表現不錯,尤其是是非題答對率更高。經兩位風濕科醫師評分,答案正確且一致性高,部分答案在回饋後還有進步。顯示ChatGPT-4有潛力成為RA臨床決策的輔助工具,有助提升風濕科的循證與個人化醫療。 PubMed DOI

這項研究打造了專為慢性下背痛設計的臨床決策支援系統,結合大型語言模型、RAG和LtM提示,讓AI更貼近專家思考。客製化的CLBP-GPT在準確性、相關性等表現都勝過現有主流模型,能提供更精確、完整的診斷與治療建議,有助提升患者的個人化照護品質。 PubMed DOI

這項研究發現,Gemini 2.0的答案最容易閱讀,ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用,且ChatGPT-4o的內容和指引最接近。整體來說,ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI