LLM 相關三個月內文章 / 第 63 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在回答家長常見脊柱側彎問題的表現。四位骨科醫師評分後,ChatGPT表現最好(4.0/5),明顯優於Gemini和Copilot(皆為3.1)。整體來說,這些AI都能提供不錯的資訊,目前以ChatGPT最可靠。 相關文章 PubMed DOI 推理

LEADS 是專為醫學文獻訓練的 AI 模型,能協助系統性回顧的搜尋、篩選和資料擷取,表現比一般大型語言模型更好。臨床醫師和研究人員用 LEADS 不只更準確、召回率高,還能省下很多時間,證明專業 AI 模型能大幅提升循證醫學的效率和品質。 相關文章 PubMed 推理

這篇研究提出用大型語言模型(LLM)從臨床病例報告中擷取有時間標記的資訊來預測臨床事件。結果顯示,編碼器模型在事件預測較好,解碼器模型則適合早期存活預測。特別是把資料按時間順序整理,能大幅提升預測效果,強調時間結構化在臨床應用的重要性。 相關文章 PubMed 推理

作者開發了一套用對話式AI自動打電話做調查的系統,能自己訪談、記錄並分析受訪者回答。實測40次,AI擷取答案的正確率高達98%,即使語音轉錄有小錯也不影響。參與者覺得AI客服講話清楚又有趣。這方法有望讓醫療電話調查更省人力、規模化。 相關文章 PubMed 推理

作者開發了 LEAVS 工具,能用大型語言模型從腹部 CT 報告中自動萃取異常類型、確定性和緊急程度等結構化標籤,涵蓋九個器官七種異常。LEAVS 準確率高(F1 分數 0.89),比現有方法更好,緊急程度標註也接近人工。這些標籤可用來訓練影像模型偵測腹部異常,程式碼和標註資料也已公開。 相關文章 PubMed 推理

作者開發了一套系統,能把病例報告的文字轉成有結構的時間序列資料,方便分析。他們比較人工和大型語言模型(LLM)的標註結果,發現LLM在事件辨識上表現普通,但在標註事件時間點上跟人工很接近。這研究為未來用病例報告做病程時間序列分析打下基礎。 相關文章 PubMed 推理

這項研究公開一個全新資料集,收錄18位長新冠患者的時序性文字資料,經Llama-3.1-70B-Instruct處理並由專家標註臨床風險。作者提出Active Attention Network,結合專業知識與主動學習,能更準確預測臨床風險及偵測重要病程事件,協助提升照護品質並有效分配醫療資源,同時減少人工標註需求。 相關文章 PubMed 推理

臨床試驗招募常遇到知名度低、條件複雜等困難。研究用TrialGPT大型語言模型,把50個線上病患案例和臨床試驗配對,結果比傳統關鍵字搜尋多找出46%合適試驗,每位病患平均可配對7個試驗,病患和主辦單位都給予高度好評。 相關文章 PubMed 推理

作者們推出 ArchEHR-QA,一個由專家標註、收錄 134 個 ICU 和急診真實病例的資料集,專為評估 AI 回答電子病歷(EHR)問題而設計。資料集包含病患提問、醫師解讀、EHR 重點摘錄及醫師答案。他們用三種開源語言模型測試,發現 Llama 4 用「先給答案」策略效果最好。常見 AI 問題有遺漏重點和產生虛構內容。ArchEHR-QA 有助於開發更準確、以病患為中心的 EHR 問答系統。 相關文章 PubMed 推理

Cell Ontology(CL)是單細胞組學領域用來標準化細胞類型的重要工具,支援多平台的FAIR數據實踐。這篇論文回顧CL的應用現況,介紹與細胞圖譜計畫合作擴充細胞類型的進展,並討論統一細胞定義、整合標記資料及運用大型語言模型等挑戰。 相關文章 PubMed 推理