原始文章

這項研究探討了兩種大型語言模型(LLMs)在胃腸科臨床實踐中的應用,分別是自訂的GPT模型和傳統的GPT-4o。研究發現,自訂模型在15個臨床問題中正確回答了8個,而研究員則回答了10個。傳統的GPT-4o表現最佳,正確率達14/15。雖然兩種模型的表現略低於專家醫生,但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 PubMed DOI


站上相關主題文章列表

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

這項研究比較了大型語言模型(LLMs)與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例,發現LLM Claude 3.5 Sonnet的準確率達76.1%,明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具,提供高效且具成本效益的診斷支持。 PubMed DOI

這篇評論強調了在胃腸病學和肝臟病學領域,自然語言處理(NLP)和大型語言模型(LLMs)的進展。根據PRISMA指導原則,分析了2003至2024年間的57項研究,顯示2023至2024年相關出版物顯著增加,特別是針對GPT-3和GPT-4等模型。 主要發現指出,NLP模型在從電子健康紀錄中提取資料方面有所改善,並能高精確度識別疾病特徵。儘管這些技術在提升診斷和治療潛力上表現良好,但在日常臨床實踐中的整合仍面臨挑戰,未來研究應聚焦於其實際應用價值。 PubMed DOI

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫學領域的應用潛力巨大,但也帶來了準確性和可靠性的挑戰。研究顯示,LLMs能提供正確的疾病管理資訊,但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性,以及臨床使用的驗證。總之,雖然LLMs能提升醫學教育和決策,但仍需謹慎評估,以確保其在臨床中的安全與有效性。 PubMed DOI

大型語言模型(LLMs)在醫療保健,特別是胃腸科,展現出提升臨床決策、研究及病人管理的潛力。為了安全有效地應用這些模型,必須解決偏見、幻覺及法規遵循等挑戰。本文提出一個結構化框架,針對C型肝炎治療進行案例研究,涵蓋臨床目標定義、多學科團隊組建、數據準備、模型選擇與微調等步驟。此外,還強調遵循HIPAA和GDPR等法規,以確保負責任的AI應用。未來研究應聚焦於多機構驗證及AI輔助的臨床試驗。 PubMed DOI

大型語言模型有機會提升腸胃科醫療品質和效率,但目前還有偏見、隱私和透明度等問題。要讓AI安全應用在醫療現場,醫師、AI工程師和政策單位必須共同合作,訂出明確規範,確保AI只是輔助,不會取代專業醫療判斷。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI