原始文章

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI


站上相關主題文章列表

使用大型語言模型如OpenAI的ChatGPT提供胃腸肝臟疾病醫療建議的趨勢增加,但目前準確性仍有疑慮。研究指出,這些模型在胃腸肝臟疾病領域的回應準確率偏低,可能帶來安全風險,因為提供錯誤資訊可能對醫療系統造成負擔或延誤治療。 PubMed DOI

這封信對Gravina等人關於ChatGPT在提供炎症性腸病患者醫療資訊的文章提出批評。雖然研究結果令人鼓舞,但信中強調需要更複雜的技術,例如結合推理與行動的檢索增強生成,以提升資訊的準確性和可靠性。信中指出,基本的問答測試不足以評估,應採用更全面的評估方法,來有效檢視大型語言模型在臨床環境中的表現。 PubMed DOI

這項研究旨在提升從臨床筆記中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較傳統自然語言處理(tNLP)和大型語言模型(LLMs)的效果。研究針對腹痛、腹瀉和糞便出血進行標註,並開發模型提取資訊。結果顯示,GPT-4在準確率上優於tNLP,尤其在外部驗證中表現穩定。研究強調LLMs在不同機構間的泛化能力,建議更廣泛應用這些工具以改善IBD的研究與病人護理。 PubMed DOI

大型語言模型(LLMs)在醫療領域,特別是腸胃病學中,正發揮重要作用,改善資訊獲取、診斷及個性化治療。它們能有效解讀醫學文獻,提供即時知識,並支持醫學教育。儘管潛力巨大,LLMs 在臨床實踐中的整合仍需進一步研究與監管。最近的研究顯示,LLMs 在結腸鏡檢查及癌症篩檢等方面表現良好,但仍面臨數據完整性、準確性等挑戰。成功整合需針對特定情境進行調整,並遵循指導方針。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究探討了兩種大型語言模型(LLMs)在胃腸科臨床實踐中的應用,分別是自訂的GPT模型和傳統的GPT-4o。研究發現,自訂模型在15個臨床問題中正確回答了8個,而研究員則回答了10個。傳統的GPT-4o表現最佳,正確率達14/15。雖然兩種模型的表現略低於專家醫生,但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 PubMed DOI

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—Copilot、GPT-3.5 和 GPT-4—在提供抗瘧疾藥物對系統性紅斑狼瘡(SLE)使用的準確性和完整性。研究設計了十三個問題,兩位風濕病學專家對模型回應進行評分。結果顯示,雖然準確性高,但完整性差異明顯:Copilot 38.5%,GPT-3.5 55.9%,GPT-4 92.3%。特別是在「作用機制」和「生活方式」方面,GPT-4 完整性達100%。研究指出,GPT-4 有潛力改善病人對 SLE 治療的理解,但仍需進一步研究以克服臨床應用的限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI