原始文章

這項研究旨在提升從臨床筆記中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較傳統自然語言處理(tNLP)和大型語言模型(LLMs)的效果。研究針對腹痛、腹瀉和糞便出血進行標註,並開發模型提取資訊。結果顯示,GPT-4在準確率上優於tNLP,尤其在外部驗證中表現穩定。研究強調LLMs在不同機構間的泛化能力,建議更廣泛應用這些工具以改善IBD的研究與病人護理。 PubMed DOI


站上相關主題文章列表

近年來,像ChatGPT這樣的先進大型語言模型崛起,推動人工智慧創新快速發展。這些模型能產生高品質文字回應,不需龐大訓練數據。在醫學領域,它們有潛力改善臨床工作流程、病人結果、醫學教育和研究。這篇評論專注於向胃腸科醫師解釋大型語言模型,討論其優勢、限制、安全互動方式、在胃腸學中的應用及實施挑戰。目標是協助胃腸科醫師更深入了解大型語言模型,並更積極運用此技術。 PubMed DOI

使用大型語言模型如OpenAI的ChatGPT提供胃腸肝臟疾病醫療建議的趨勢增加,但目前準確性仍有疑慮。研究指出,這些模型在胃腸肝臟疾病領域的回應準確率偏低,可能帶來安全風險,因為提供錯誤資訊可能對醫療系統造成負擔或延誤治療。 PubMed DOI

大型語言模型(LLMs)透過龐大文本數據訓練,可在醫療保健領域提升準確性。研究者正致力改善LLM在消化系疾病上的表現,但準確性範圍仍有挑戰。整合檢索增強生成(RAG)、監督微調(SFT)和人類反饋的強化學習(RLHF)等方法,是克服障礙的關鍵。結合人類反饋與先進模型訓練,對於提升LLMs在醫療保健中的效能至關重要。 PubMed DOI

本研究評估了三個大型語言模型(LLMs)生成的泌尿科病人資訊小冊子(PILs)品質,包括ChatGPT-4、PaLM 2和Llama 2。針對包皮環切術、腎切除術、過動膀胱症候群及經尿道前列腺切除術(TURP)進行評估。結果顯示,PaLM 2的PILs品質最佳,平均得分3.58,且最易閱讀。雖然LLMs能減輕醫療人員負擔,但內容仍需臨床醫師審查,且閱讀水平偏高,顯示需改進算法或提示設計。病人對這些小冊子的滿意度尚未評估。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4和GPT-3.5,如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集,透過提示優化和微調來提升模型表現。結果顯示,GPT-4的宏觀F1分數達0.833,明顯優於基準系統的0.71,而GPT-3.5則為0.796。研究還發現,GPT-4在種族和性別偏見方面表現良好,顯示出其在臨床文本分析的潛力。 PubMed DOI

自1950年代以來,人工智慧(AI)在腸胃病學上取得了顯著進展,特別是大型語言模型(LLMs)如ChatGPT的出現。這些模型能生成類似人類的文本,並有潛力改善診斷、治療和病患溝通等方面。 優勢包括加速診斷、個性化護理、增強教育和決策支持。然而,挑戰也不少,如AI理解能力有限、數據偏見和隱私問題等。未來,LLMs的發展需依賴於數據分析能力,並需醫療專業人員與AI開發者的合作,以提升病患護理品質。 PubMed DOI