原始文章

這項研究評估大型語言模型(LLMs)在教育強直性脊柱炎(AS)和脊椎關節炎(SpA)患者的有效性,涵蓋182名參與者,包括4名風濕病學專家和178名患者。結果顯示,LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導,且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力,未來可能成為醫療實踐中的重要工具。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

糖尿病是全球健康的重要議題,醫療人員對其知識水平參差不齊,顯示出有效訓練的必要性。大型語言模型(LLMs)如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現,結果顯示ChatGPT-4.0在英語考試中通過率達62.50%,在中文考試中也表現優異,準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究探討了四個大型語言模型(LLMs)——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答,並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動,並與醫生一起評分,標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示,Baichuan 2 和 ChatGPT-4.0 表現最佳,且兩者在患者和醫生評估中無顯著差異,結論認為這兩者是有效的青光眼教育工具。 PubMed DOI

眼肌型重症肌無力(OMG)主要影響眼部肌肉,常見症狀有眼瞼下垂和重影。由於中國醫療資源有限,患者教育顯得尤為重要。本研究評估大型語言模型(LLMs)在教育OMG患者的有效性,分為兩階段進行。結果顯示,ChatGPT o1-preview在準確性和有用性上表現最佳,並獲得患者較高滿意度。儘管LLMs在患者教育上展現潛力,但仍需解決錯誤資訊和可讀性等問題,以確保安全有效的臨床應用。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI

這項研究發現,Gemini 2.0的答案最容易閱讀,ChatGPT-4o和Gemini 2.0的回覆比ChatGPT-3.5更可靠、實用,且ChatGPT-4o的內容和指引最接近。整體來說,ChatGPT-4o和Gemini 2.0有機會成為風濕免疫科醫師的臨床決策好幫手。 PubMed DOI