原始文章

這項研究評估大型語言模型(LLMs)在教育強直性脊柱炎(AS)和脊椎關節炎(SpA)患者的有效性,涵蓋182名參與者,包括4名風濕病學專家和178名患者。結果顯示,LLMs如ChatGPT-4o和Kimi在提供準確的醫療資訊上表現優於傳統指導,且患者對這些資訊的理解和接受度也較高。研究建議LLMs在醫療知識傳遞和患者教育上具潛力,未來可能成為醫療實踐中的重要工具。 PubMed DOI


站上相關主題文章列表

研究評估大型語言模型對自閉症患者回應的效果,發現醫師回應更準確實用,而LLMs在同理心表現較佳。在將LLMs應用到臨床前,還需進一步研究和改進。 PubMed DOI

脊椎關節炎(SpA)是一種慢性發炎性疾病,影響骶髂關節和脊椎,可能導致殘疾。準確診斷SpA有挑戰,但大型語言模型(LLMs)有潛力。新醫學模型開發中,旨在改善SpA診斷和治療,特別是在醫療資源不足的地區。預計2024年初有重大進展,並在同年晚些時候公布結果。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)在幽門螺旋桿菌感染諮詢中的有效性,重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日,針對15個H. pylori相關問題進行評估。結果顯示,準確性得分為4.80,顯示良好,但完整性和可理解性得分較低,分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出,雖然LLMs在提供資訊上表現不錯,但在完整性和可靠性方面仍需改進,以提升其作為醫療諮詢工具的效能。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答結膜炎相關問題的有效性,於復旦大學眼耳鼻喉醫院進行。研究分為兩階段,第一階段四個LLM(GPT-4、Qwen、Baichuan 2和PaLM 2)回答22個問題,專家評估其正確性、完整性等。結果顯示GPT-4表現最佳,Qwen在有用性和安全性上也不錯。第二階段中,30名結膜炎患者與GPT-4或Qwen互動,滿意度高。研究結論認為LLMs能提升患者教育,但需改善個性化和複雜性處理能力。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—ChatGPT 3.5、ChatGPT 4.0 和 Google Bard—在提供青少年特發性脊柱側彎(AIS)資訊的效果。研究人員針對AIS的常見問題設計了10個關鍵問題,並由專業醫生評估這些模型的回答。結果顯示,只有26%的回答被評為「優秀」,其中ChatGPT 4.0表現最佳,達39%。雖然這些模型在清晰度和同理心上表現不錯,但仍需改進,特別是在語言適用性和情境理解方面。整體而言,這項研究顯示了LLMs在病人教育中的潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究探討了四個大型語言模型(LLMs)——Qwen、Baichuan 2、ChatGPT-4.0 和 PaLM 2——在教育青光眼患者的效果。資深眼科醫生評估這些模型對青光眼問題的回答,並用中文可讀性平台檢視其可讀性與難度。29位青光眼患者與這些聊天機器人互動,並與醫生一起評分,標準包括正確性、完整性、可讀性、有用性和安全性。結果顯示,Baichuan 2 和 ChatGPT-4.0 表現最佳,且兩者在患者和醫生評估中無顯著差異,結論認為這兩者是有效的青光眼教育工具。 PubMed DOI