原始文章

這篇研究用 Bio_ClinicalBERT 等預訓練語言模型,提出產生去識別化合成臨床信件的方法。結果顯示,僅有編碼器的模型表現較佳,只要保留臨床實體,一般模型也能媲美專用模型。遮罩停用詞有助提升品質,遮罩名詞或動詞則會降低品質。BERTScore 是最佳評估指標。偶爾的幻覺對臨床應用影響不大。程式碼和模型已開源。 PubMed DOI


站上相關主題文章列表

隨著醫療保健對先進分析的需求增加,合成健康數據的使用變得愈加重要,尤其是在獲取真實健康數據的挑戰下。大型語言模型(LLMs)的進展為生成合成健康數據提供了新機會,但也帶來潛在風險。本文綜述了合成健康數據生成(SHDG)及LLM的研究,探討生成對抗網絡等機器學習模型的現狀與局限性。SHDG面臨的挑戰包括評估指標、數據效率、健康公平等,雖然LLMs在某些方面顯示潛力,但深入研究其優缺點仍然至關重要。 PubMed DOI

自然語言處理(NLP)在放射學等領域展現了將非結構化數據轉為結構化格式的潛力,但隱私問題使得數據集獲取困難。我們的目標是利用大型語言模型(LLMs)從救護人員與病人對話中提取醫療資訊,以填寫緊急應變程序表格。為此,我們開發了一個流程,使用"Zephyr-7b-beta"生成初步對話,再用GPT-4 Turbo進行精煉。初步結果顯示,"Zephyr-7b-beta"的準確率為94%,但經過精煉後略降至87%。這些結果顯示LLMs在醫療對話生成中的潛力與挑戰。 PubMed DOI

這項研究探討使用臨床筆記進行研究時,去識別化和合成數據生成在隱私保護上的有效性。主要發現包括: 1. 去識別化的臨床筆記無法完全防止成員推斷攻擊,可能洩露特定數據。 2. 開發了一種新方法,利用大型語言模型生成合成臨床筆記。 3. 合成筆記在臨床任務中的表現與真實筆記相似。 4. 雖然合成筆記表現良好,但仍面臨與真實筆記相似的隱私問題。 研究建議需進一步探索合成臨床筆記的替代方法,以提升隱私保障。 PubMed DOI

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據,以解決隱私法規和數據稀缺的問題。研究分為兩個階段:第一階段根據13個臨床參數創建了6,166個案例的結構化數據集,數據合理且準確;第二階段則利用真實的圍手術期數據集VitalDB生成數據,結果顯示92.31%的參數與VitalDB相似,且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據,未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

這項研究探討如何將電子健康紀錄(EHRs)與自然語言處理(NLP)及大型語言模型(LLMs)結合,以改善醫療數據管理和病人照護。研究使用MIMIC III數據集,採用GPT-3.5、GPT-4等模型生成符合HIPAA要求的合成病人紀錄。結果顯示,基於關鍵字的方法在隱私保護上風險較低,且保持良好性能,建議未來可考慮使用虛擬的PHI來提升實用性與隱私保護。 PubMed DOI

這項研究用大型LLM產生合成資料,來訓練較小的開源模型,讓它們在臨床紀錄資訊擷取上表現接近大型模型。8B參數的模型幾乎和70B一樣好,且只針對難題微調也有效。這方法能降低運算需求、保護隱私,適合在本地硬體上應用。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI

這項研究提出一套新框架,能提升大型語言模型(LLM)生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面,分析近1.3萬句臨床標註句子後,發現幻覺率1.47%、遺漏率3.45%。經優化後,重大錯誤率甚至比人類醫師還低,顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

這篇回顧分析52篇合成健康紀錄(SHRs)研究,涵蓋醫療文本、時間序列和縱向資料。多數研究聚焦於隱私保護,也有解決資料不平衡、稀缺和補值問題。結果顯示,縱向資料以對抗式網路最佳,時間序列適合機率模型,醫療文本則以大型語言模型表現最優。目前最大缺口是缺乏有效評估合成資料再識別風險的方法。 PubMed DOI