原始文章

這項研究探討了人工智慧,特別是大型語言模型(LLMs),在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者,分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記,評估藥物的療效與安全性,結果顯示AI分析與人類分析相近,僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力,能減少對傳統數據挖掘方法的需求。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在提升病人與臨床試驗(CTs)匹配的應用,並以資訊檢索為框架。研究開發了一個多階段檢索管道,結合BM25、Transformer排名器及LLM方法,數據來自TREC臨床試驗2021-23。結果顯示,微調的LLM在查詢形成、過濾及重新排名上表現優於傳統方法,提升了識別合格試驗的有效性。雖然LLMs具競爭力,但計算成本較高,效率降低。未來研究應聚焦於優化成本與檢索有效性之間的平衡。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI

這項研究比較了功能性癲癇發作可能性評分(FSLS)與兩個大型語言模型(ChatGPT和GPT-4)在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例,FSLS的準確率為74%,而GPT-4的準確率達85%。研究發現,LLMs的預測結果在不同時間不一致,且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患,但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂,顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

這項研究評估了機器學習演算法在識別適合癲癇手術評估病人方面的有效性,並檢視大型語言模型(LLM)在提取相關資訊的表現。研究在一所三級醫院進行,分析了310名癲癇病人的資料。使用隨機森林模型排名後,前5%的病人中有53.3%符合手術評估標準,且有20%在一個月內被轉診。LLM在提取關鍵資訊的準確率介於80%到100%之間,但仍有錯誤,顯示人工智慧在此領域的潛力與挑戰。 PubMed DOI

這項研究評估大型語言模型(LLMs)在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書,並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示,LLM在內容相關性和術語方面表現良好,但在臨床思維和透明度上則較差。為提升表現,研究人員採用檢索增強生成(RAG)方法,顯著改善了內容質量,提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性,並可能改變藥物開發過程。 PubMed DOI

這項研究探討了使用開源大型語言模型Llama 3,分析2018至2023年間去中心化臨床試驗(DCTs)的趨勢,並解決試驗登記中術語不標準的問題。研究人員從ClinicalTrials.gov獲取數據,使用三個不同版本的Llama 3模型進行DCT分類和提取去中心化元素。結果顯示,微調模型能提高敏感性,但正確預測值較低,需專注於DCT術語。最終識別出692個DCT,主要為第二期試驗,顯示大型語言模型在分析非結構化臨床數據的潛力,並強調管理模型偏見的重要性。 PubMed DOI

生成式人工智慧(GAI)技術,特別是大型語言模型(LLMs),在醫學領域的應用越來越普遍,尤其是在病人與臨床試驗配對方面。研究顯示,LLMs能有效匹配病人的健康紀錄與臨床試驗資格標準,並取得良好結果。雖然自動化配對有助於提升病人參與率和減輕醫療工作負擔,但也面臨挑戰,如可能帶來虛假希望、導航困難及需人類監督等問題。進一步研究對驗證LLM在腫瘤學中的安全性和有效性至關重要。 PubMed DOI

這項研究探討人工智慧在醫療上的應用,特別是命名實體識別(NER)和大型語言模型(LLMs),評估紐約大學和辛辛那提大學的電子健康紀錄中的臨床推理文件。分析了700份NYU和450份UC的住院醫師紀錄,並開發了多種AI模型。NYUTron LLM在NYU表現最佳,而GatorTron LLM在UC也有不錯的成績。研究顯示AI工具能顯著提升臨床推理的質量,並強調這些模型在不同醫療機構的應用潛力。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

這篇文獻回顧指出,大型語言模型(LLMs)已被用來提升病患與臨床試驗配對的效率,尤其是OpenAI的模型。雖然LLMs能大幅提升配對準確度與規模,但目前仍面臨可靠性、可解釋性及過度依賴合成資料等問題。未來應加強模型調校、採用真實世界資料,並提升可解釋性,才能真正發揮其潛力。 PubMed DOI