Large Language Models Outperform Traditional Natural Language Processing Methods in Extracting Patient-Reported Outcomes in Inflammatory Bowel Disease.
大型語言模型在提取炎症性腸病患者報告結果方面優於傳統自然語言處理方法。 Gastro Hep Adv 2025-01-29

這項研究探討如何從電子健康紀錄中提取與炎症性腸病（IBD）相關的病人報告結果（PROs），比較了傳統自然語言處理（tNLP）和大型語言模型（LLMs）如GPT-4的表現。研究發現，GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP，特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力，且不受人口統計或診斷偏見影響。 PubMed DOI

Multiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms.
多個大型語言模型與經驗豐富的醫生在診斷具有挑戰性的腸胃症狀病例中的比較。 NPJ Digit Med 2025-02-05

這項研究比較了大型語言模型（LLMs）與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例，發現LLM Claude 3.5 Sonnet的準確率達76.1%，明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具，提供高效且具成本效益的診斷支持。 PubMed DOI

Emerging applications of NLP and large language models in gastroenterology and hepatology: a systematic review.
腸胃病學和肝臟病學中自然語言處理及大型語言模型的新興應用：系統性回顧。 Front Med (Lausanne) 2025-02-07

這篇評論強調了在胃腸病學和肝臟病學領域，自然語言處理（NLP）和大型語言模型（LLMs）的進展。根據PRISMA指導原則，分析了2003至2024年間的57項研究，顯示2023至2024年相關出版物顯著增加，特別是針對GPT-3和GPT-4等模型。主要發現指出，NLP模型在從電子健康紀錄中提取資料方面有所改善，並能高精確度識別疾病特徵。儘管這些技術在提升診斷和治療潛力上表現良好，但在日常臨床實踐中的整合仍面臨挑戰，未來研究應聚焦於其實際應用價值。 PubMed DOI

Evaluating large language models as patient education tools for inflammatory bowel disease: A comparative study.
評估大型語言模型作為炎症性腸病患者教育工具的效果：一項比較研究。 World J Gastroenterol 2025-02-17

炎症性腸病（IBD）影響全球數百萬人，因此有效的病人教育非常重要。大型語言模型（LLMs）如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊，但其準確性尚未廣泛研究。研究中，腸胃科專家設計了15個IBD問題，評估這三個模型的表現。結果顯示，這些模型在基本資訊上表現良好，但在複雜主題如藥物副作用和飲食改變時，表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力，但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

[Can large language models answer clinical questions?].
大型語言模型能否回答臨床問題？ Recenti Prog Med 2025-03-14

大型語言模型（LLMs）如ChatGPT在醫學領域的應用潛力巨大，但也帶來了準確性和可靠性的挑戰。研究顯示，LLMs能提供正確的疾病管理資訊，但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性，以及臨床使用的驗證。總之，雖然LLMs能提升醫學教育和決策，但仍需謹慎評估，以確保其在臨床中的安全與有效性。 PubMed DOI

Utilizing large language models for gastroenterology research: a conceptual framework.
利用大型語言模型進行胃腸病學研究：一個概念框架。 Therap Adv Gastroenterol 2025-04-02

大型語言模型（LLMs）在醫療保健，特別是胃腸科，展現出提升臨床決策、研究及病人管理的潛力。為了安全有效地應用這些模型，必須解決偏見、幻覺及法規遵循等挑戰。本文提出一個結構化框架，針對C型肝炎治療進行案例研究，涵蓋臨床目標定義、多學科團隊組建、數據準備、模型選擇與微調等步驟。此外，還強調遵循HIPAA和GDPR等法規，以確保負責任的AI應用。未來研究應聚焦於多機構驗證及AI輔助的臨床試驗。 PubMed DOI

Large Language Models in Gastroenterology and Gastrointestinal Surgery: A New Frontier in Patient Communication and Education.
腸胃科與腸胃外科中的大型語言模型：病人溝通與衛教的新前沿 Gastroenterology Res 2025-05-05

大型語言模型有機會提升腸胃科醫療品質和效率，但目前還有偏見、隱私和透明度等問題。要讓AI安全應用在醫療現場，醫師、AI工程師和政策單位必須共同合作，訂出明確規範，確保AI只是輔助，不會取代專業醫療判斷。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表