原始文章

臨床試驗中,方案偏差(PDs)定義不一,難以有效辨識關鍵影響。傳統用NLP分類PDs又慢又複雜。這項研究用Meta Llama2大型語言模型,開發自動化系統,能快速分類Roche系統裡的PDs,自動標記出超過八成可能影響結果的PDs,讓專家能聚焦審查,大幅提升效率,幾分鐘就能得到有用見解。 PubMed DOI


站上相關主題文章列表

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告,並以人類標註作為金標準。結果顯示,該模型的敏感度達85.7%,特異度為97.9%,使用了79個標籤,而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看,GPT-3.5能提升事件報告系統的數據利用效率,並可能改善病人安全。 PubMed DOI

這項研究探討大型語言模型(LLM)LLaMA 2 在臨床護理的應用,特別是解釋複雜的護理路徑模型。傳統的診斷系統繁瑣且需頻繁更新。研究人員訓練 LLaMA 2,並測試其根據假設病人案例提供臨床建議的能力。結果顯示,LLaMA 2 在檢索診斷和建議管理步驟方面準確率高,平均節點準確率為 0.91,邊緣準確率為 0.92,顯示其在醫療資訊檢索上的潛力。未來研究應著重於提升 LLM 的可解釋性及與臨床流程的整合。 PubMed DOI

這項研究評估大型語言模型(LLMs)在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書,並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示,LLM在內容相關性和術語方面表現良好,但在臨床思維和透明度上則較差。為提升表現,研究人員採用檢索增強生成(RAG)方法,顯著改善了內容質量,提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性,並可能改變藥物開發過程。 PubMed DOI

這項研究探討了使用開源大型語言模型Llama 3,分析2018至2023年間去中心化臨床試驗(DCTs)的趨勢,並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據,使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示,微調模型能提高敏感性,但正確預測值較低,需專注於DCT術語。最終識別出692個DCT,主要為第二期試驗,顯示大型語言模型在分析非結構化臨床數據的潛力,並強調管理模型偏見的重要性。 PubMed DOI

這項概念驗證研究顯示,大型語言模型(LLMs)能自動將非結構化的病例報告轉換為臨床評分。我們使用標準化的臨床評分量表,並評估LLM對其輸出的信心,以改善提示策略並確保結果的可重複性。針對藥物引起的帕金森症病例報告,研究結果顯示LLM提取的數據與臨床評分者手動提取的結果相當接近,準確率高達90%。 PubMed DOI

這個專案用標準化流程和大型語言模型來分析MAUDE資料庫裡醫療器材報告的自由敘述,提升事件分類的準確率和效率。以內視鏡黏膜切除術為例,這方法也能應用到其他醫材。不過,若要做更全面的病人安全研究,還需要更多元且大量的報告樣本。 PubMed DOI

在電子病歷中找出藥物不良事件(ADEs)很困難,因為相關資訊多藏在醫師的自由書寫紀錄裡。人工審查又很耗時,所以需要自動化工具。這項研究用大型語言模型來偵測ADEs,發現不到15%的出院紀錄會明確記載ADEs與藥物的關聯,顯示通報機制還有很大改進空間。 PubMed DOI

這項研究比較多款大型語言模型在自動化 pharmacometrics 任務的表現,發現 Claude 3.5 Sonnet 在產生模型圖、參數表和報告上最準確且易用。ChatGPT 4o 雖能模擬,但遇到複雜模型會卡關。整體來說,LLMs 有助於簡化工作流程,但還是需要專家把關結果。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

這篇回顧發現,大型語言模型(LLMs)在個人化醫療診斷上越來越常被應用,能提升診斷準確度並協助量身打造治療。不過,資料隱私、模型解釋性和可靠性還有待加強,未來需持續研究和建立相關保障,才能安心用在臨床上。 PubMed DOI