原始文章

作者開發了一套系統,能自動從病例報告中擷取並標註臨床事件的時間點,轉成時間序列資料。比較人工和大型語言模型(LLM)標註結果,發現LLM在事件回溯表現普通,但在時間標註上很準確。這研究提供了分析臨床時間序列的新工具和基準,程式碼已開源於GitHub。 PubMed


站上相關主題文章列表

這項概念驗證研究顯示,大型語言模型(LLMs)能自動將非結構化的病例報告轉換為臨床評分。我們使用標準化的臨床評分量表,並評估LLM對其輸出的信心,以改善提示策略並確保結果的可重複性。針對藥物引起的帕金森症病例報告,研究結果顯示LLM提取的數據與臨床評分者手動提取的結果相當接近,準確率高達90%。 PubMed DOI

這項研究探討使用本地部署的大型語言模型(LLM)自動回答醫療問題,特別針對甲狀腺癌的外科病理報告。研究比較了LLM與人類審閱者在提取關鍵資訊的表現。結果顯示,人類審閱者的一致率高達99%,而LLM的平均一致率為89%。在效率方面,LLM回答問題的時間約19.56分鐘,遠低於審閱者的170.7分鐘和115分鐘。研究顯示LLM能有效協助醫療問題回答,並有潛力進一步改善數據提取能力。 PubMed DOI

MAUDE資料庫追蹤醫療器材的不良事件,最近受到更多關注,但報告中的敘述常被忽略,導致重要見解流失。為了解決這個問題,我們使用大型語言模型(LLMs),特別是OpenAI的GPT-4-turbo,來分析內視鏡夾相關的MAUDE報告,識別未編碼的手術程序並提取額外見解。這種方法顯示LLMs在處理敘述數據上的有效性,提供比傳統分析更高效且具成本效益的替代方案,最終能將MAUDE報告轉化為臨床實踐的可行知識。 PubMed DOI

這項研究用大型語言模型,解決放射科報告標註資料不足的問題,能自動抓出危及生命的異常發現。模型在1.5萬份未標註報告訓練,經專家和AI評分驗證,準確度高,內外部資料都適用。這方法提升危急異常偵測力,已開放給研究和臨床使用。 PubMed DOI

這項研究發現,規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上,都比大型語言模型(LLaMA2-13B、LLaMA3-8B)表現更好。不過,LLMs 在某些情境下也有優勢。整體來說,LLMs 在公平性和泛化能力上還有待加強,未來需提升訓練資料和標註品質。 PubMed DOI

這個專案用標準化流程和大型語言模型來分析MAUDE資料庫裡醫療器材報告的自由敘述,提升事件分類的準確率和效率。以內視鏡黏膜切除術為例,這方法也能應用到其他醫材。不過,若要做更全面的病人安全研究,還需要更多元且大量的報告樣本。 PubMed DOI

**重點整理:** 這項研究顯示,只要搭配詳細的提示、範例和逐步推理,大型語言模型(LLMs)就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比,LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好,這有助於提升醫療流程,也能支持更多相關研究。 PubMed

這篇文章說明大型語言模型(LLMs)能準確從臨床文本抓取數值資料,像是檢驗數據和生命徵象。作者提出新提示策略和方法,能有效降低錯誤,並在標註病歷上驗證成果,也證明這方法適用於大量器官捐贈者資料分析,有助提升器官採集資料的研究可用性。 PubMed

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI

大部分醫療紀錄都是非結構化,讓資料分析很困難。這項研究測試九種大型語言模型,能自動從兒科臨床報告擷取結構化資料。不論是商業還是開源模型,表現都很優秀,最好的模型辨識重要病患資訊的準確率超過九成。LLMs為醫療資料擷取提供靈活又準確的替代方案,有機會取代人工處理。 PubMed DOI