原始文章

這項研究探討人工智慧在醫療上的應用,特別是命名實體識別(NER)和大型語言模型(LLMs),評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄,並開發了多種AI模型。NYUTron LLM在NYU表現最佳,而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量,並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分類與心理健康相關的電子健康紀錄(EHRs)術語的有效性,並與臨床專家的判斷進行比較。研究使用了來自美國50多家醫療機構的數據,分析了因心理健康問題入院的病人EHR。結果顯示,LLM與臨床醫生在術語的廣泛分類上達成高一致性(κ=0.77),但在具體的心理健康(κ=0.62)和身體健康術語(κ=0.69)上則較低,顯示出LLM的變異性。儘管如此,研究強調了LLM在自動化編碼和預測建模中的潛力。 PubMed DOI

這項研究探討了人工智慧,特別是大型語言模型(LLMs),在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者,分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記,評估藥物的療效與安全性,結果顯示AI分析與人類分析相近,僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力,能減少對傳統數據挖掘方法的需求。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

最新研究發現,OpenAI 的 o1 LLM 在急診臨床決策上表現跟醫師差不多,診斷和收治判斷準確率都超過九成,甚至在異常檢驗判讀上還拿到滿分。相比之下,Claude-3.5-Sonnet 和 Llama-3.2-70B 在治療計畫上表現較弱。整體來說,o1 有機會成為急診醫療現場的專業決策輔助工具。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症,讓診斷正確率從 27% 提升到 58%,AI 自己的正確率則是 60%。有 AI 幫忙時,住院醫師不只診斷更準確,速度也更快,鑑別診斷品質也提升。整體來說,這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI