原始文章

這項研究探討大型語言模型(LLMs),特別是Llama 2和GPT-4,在電子健康紀錄中檢測認知衰退的有效性。研究在麻省總醫院進行,分析輕度認知障礙患者的臨床筆記,並將LLMs與傳統模型比較。結果顯示,GPT-4的表現優於Llama 2,但仍不及傳統模型。集成模型的表現最佳,達到90.2%的精確度。錯誤分析顯示模型間的錯誤特徵不同,建議結合LLMs與傳統模型以提升診斷效果。該研究獲得美國國家老齡化研究所及國家醫學圖書館的資助。 PubMed DOI


站上相關主題文章列表

這項研究探討了大型語言模型(LLMs)如ChatGPT和Google Bard在從臨床摘要中預測神經病理診斷方面的應用。這些LLMs在某些案例中準確識別了主要診斷並提供了其預測的理由。研究結果表明,像ChatGPT這樣的人工智慧工具可能有助於增強神經病理學的臨床病理會議中的討論。 PubMed DOI

大型語言模型(LLMs)在自然語言處理領域有潛力,可加速臨床實踐,如診斷、預防和治療。智能對話系統運用LLMs被視為治療的未來,尤其是在ChatGPT時代。這研究專注於在醫療保健領域運用LLMs,特別關注認知衰退和產後抑鬱。討論LLMs在醫療保健中的好處,如增進臨床任務和提供個人化醫療,以及相關擔憂,如數據隱私和公平性。這有助於全球討論將LLMs整合到醫療系統中。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

這項研究比較了不同的機器學習技術,用於辨識臨床記錄中的認知衰退。他們發現,結合大型語言模型(LLM)、傳統機器學習和深度學習能夠取得最佳表現。這個整合模型具有高精確度、召回率和F1分數。研究顯示,將LLM與傳統模型結合使用,能夠透過彼此的優勢互補,提高診斷準確性。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

LLMs有潛力改善老化和失智症護理,研討會探討了這個議題,強調LLMs在臨床決策和預測分析中的重要性。同時也提到了道德議題,強調平衡技術進步和道德考量的重要性。展望LLMs將革新醫療保健,但也提到需要面對的挑戰。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究評估大型語言模型(LLMs)在識別晚期癌症患者的預立醫療計畫(ACP)文件的有效性。研究在達納法伯癌症中心進行,將LLM的表現與傳統手動查閱和自然語言處理(NLP)方法比較。使用GPT-4,研究聚焦於護理目標、生命延續治療限制及安寧緩和醫療等關鍵領域。結果顯示LLM在敏感性和特異性上表現良好,整體準確率介於0.81到0.91之間,特別在複雜主題上優於NLP。雖然精確度略低,但LLM的假陽性對臨床管理仍具相關性,建議進一步研究以增強此方法。 PubMed DOI