原始文章

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI


站上相關主題文章列表

研究比較了大型語言模型(LLMs)如ChatGPT 3.5-4、BARD和Bing在回答有關治療類風濕性關節炎的甲氨蝶呤(MTX)問題時的表現。結果發現GPT模型答對率100%,BARD和Bing表現較差。GPT-4準確性最高,其次是GPT-3.5。BARD和Bing有更多錯誤和未回答。研究指出GPT模型對於MTX的作用機制和副作用回答較準確,GPT-4提供最全面的資訊。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,對黑色素瘤病人問題的回答效果,並與荷蘭的病人資訊資源(PIRs)比較。結果顯示,ChatGPT-3.5在準確性上表現最佳,而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定,某網站在個人化和可讀性上特別強。整體來看,LLMs在大多數領域超越PIRs,但準確性仍需加強,且LLM的可重複性隨時間下降。研究強調,LLMs需提升準確性和可重複性,才能有效取代或補充傳統PIRs。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現,重點在準確性和上下文敏感性。結果顯示,這些模型通常能提供準確的健康資訊,但回應存在變異,有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分,研究強調需謹慎驗證資訊,以降低錯誤風險,並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5、ChatGPT-4和Google Bard,在提供疾病流行病學數據的準確性。研究設計了21個問題,並將其提交給每個模型兩次。結果顯示,ChatGPT-4的準確率最高,達76.2%,其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳,但三者皆存在不準確性和參考文獻問題,限制了它們在醫藥和學術界的實用性。 PubMed DOI

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在教育強直性脊柱炎(AS)和脊椎關節炎(SpA)患者的有效性,涵蓋182名參與者,包括4名風濕病學專家和178名患者。結果顯示,LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導,且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力,未來可能成為醫療實踐中的重要工具。 PubMed DOI