原始文章

這項研究探討了不同BERT模型在理解混合韓文和英文的臨床筆記中的效果,特別針對南韓的研究空白。研究使用了來自南韓一家醫院的164,460名患者數據,對BERT-base、BioBERT、KoBERT和多語言BERT(M-BERT)進行了預訓練和評估,涵蓋七個微調任務。 主要發現包括:BERT-base和BioBERT在文件分類中表現最佳,BioBERT的F1分數達89.32;M-BERT在閱讀理解任務中表現優異,F1分數達93.77;在知識推斷方面,M-BERT的hit@10分數為95.41。這項研究顯示了各種BERT模型在多語言臨床環境中的有效性,為未來的應用提供了重要見解。 PubMed DOI


站上相關主題文章列表

這篇論文研究了在醫學NLP任務中使用PLMs(如BERT、BioBERT和ChatGPT)的效果。涵蓋了文本摘要、問答、情感分析等任務,探討了方法、優勢、數據集和評估指標,並提及最新研究成果。評估了研究質量和影響力,提出未來研究方向,以增進PLMs在臨床應用的可靠性。提供模型代碼和數據集下載鏈接,對醫療NLP有興趣的研究人員和醫護人員有用。 PubMed DOI

這項研究比較了兩種模型在預測住院情況的表現,分別是深度學習模型Bio-Clinical-BERT和詞袋邏輯回歸模型BOW-LR-TF-IDF。研究基於Mount Sinai Health System近140萬名患者的數據,結果顯示Bio-Clinical-BERT的接收者操作特徵曲線下面積(AUC)得分為0.82到0.85,優於BOW-LR-TF-IDF的0.81到0.84。雖然兩者性能差異不大,但都能有效利用分診筆記進行預測。研究強調在資源有限的情況下,簡單模型也能滿足需求,並建議進一步研究以提升醫療預測能力。 PubMed DOI

命名實體識別(NER)模型在從非結構化醫療文本中提取結構化資訊方面非常重要,能識別疾病和治療等實體,對臨床決策和研究有幫助。近期基於BERT的深度學習進展提升了NER能力,但醫學術語的複雜性使得模型在不同數據集上的表現不一。本研究評估了七種NER模型在醫療文本分析中的表現,特別關注複雜術語和宏觀因素對準確性的影響。結果顯示,經微調的BERT在某些數據集上表現最佳,並強調了針對性優化的必要性,以增強臨床決策和開發更有效的醫療NER模型。 PubMed DOI

這項研究評估了ChatGPT在根據病人症狀推薦醫療專科的效果,使用了31,482個標記有27個專科的醫療問題。結果顯示,ChatGPT的準確率為0.939,F1分數為0.134,雖然不及經過微調的韓國醫療BERT(KM-BERT)的準確率0.977和F1分數0.587,但它能提供有價值的解釋,幫助病人理解潛在的醫療狀況。雖然在專科推薦上不如KM-BERT,ChatGPT的對話能力仍可能改善病人獲取資訊的過程。 PubMed DOI

這項研究提出了一種主動學習的方法,能自動從非結構化數據中提取臨床概念,並將其分類為問題、治療和檢測等類別。研究強調高精確度和召回率,並透過i2b2公共數據集進行實驗。使用基於詞彙的方法獲取標記數據,並採用BERT變體如ClinicalBERT和SCIBERT進行分類。結果顯示,SCIBERT在主動轉移學習中表現優異,並且結合CNN的深度學習模型達到高準確率,顯示出在臨床應用中的潛力。 PubMed DOI

這項研究探討了使用遮蔽語言模型(MLM)在醫院特定領域的適應性,並應用於基於BERT的模型來分類神經放射學報告。分析了來自國王學院醫院和蓋伊與聖托馬斯信託醫院的超過200,000份MRI報告。結果顯示,經過適應的模型性能顯著提升,最佳訓練數據達到97.0%和95.5%的準確率。Llama-3.0 70B模型表現最佳,準確率分別為97.1%和94.0%。研究建議在臨床環境中使用醫院特定的模型適應,並指出LLM可作為有效替代方案。 PubMed DOI

這項研究評估了現代自然語言處理技術,特別是大型語言模型在電子健康紀錄中提取「適應症」資訊的能力,針對抗生素處方進行分析。研究分析了938,150份處方,將4,000個常見適應症分類為11個感染相關類別。結果顯示,微調的Bio+Clinical BERT模型在測試中表現優異,F1分數達0.97和0.98,明顯優於傳統方法。研究結論指出,自由文本適應症能更有效識別感染來源,提升31%。整體而言,基於變壓器的模型在提取臨床數據中顯示出廣泛應用潛力。 PubMed DOI

這項研究評估了生物醫學調整的大型語言模型(LLMs)在臨床任務中的表現,與通用模型相比。研究發現,生物醫學LLMs的表現通常不如通用模型,尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似,但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念,建議探索其他策略,如檢索增強生成,以更有效地整合LLMs進入臨床環境。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

這項研究用機器學習模型來比對英文和韓文健康問卷的語意相似度,目的是讓不同語言的健康資料更容易統一和標準化。研究發現,SBERT-LaBSE模型在跨語言比對上表現最好。這方法有助於整合多語言健康問卷,但還需要更多資料和領域來驗證。 PubMed DOI