原始文章

在建築、工程和建設(AEC)領域,自動合規檢查(ACC)需要自動化解釋建築法規,但因自然語言的細微差異和機器學習資源有限,過程變得複雜。為了解決這些問題,我們推出了CODE-ACCORD,這是一個包含862個獨立句子的數據集,來自英國和芬蘭的建築法規。這些句子完整表達規則,對ACC至關重要。經過12名標註者的手動標註,該數據集提供了4,297個實體和4,329個關係,為機器可讀的規則生成奠定基礎,並支持各種機器學習和自然語言處理任務。 PubMed DOI


站上相關主題文章列表

Linguacodus是一個新框架,能將自然語言描述轉換成可執行的程式碼,解決了機器學習中的一大挑戰。它透過動態管道和高階數據指令,逐步將任務描述轉換為程式碼。核心是經過微調的大型語言模型,能評估多種解決方案並選擇最佳方案。這項技術在Kaggle的大型數據集上經過實驗,顯示出其有效性,並在各機器學習領域展現潛在應用。 PubMed DOI

這項研究探討自動ICD編碼的挑戰,對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多,手動編碼常常慢且易出錯。為了提升大型語言模型(LLMs)的表現,作者提出了一個微調框架,結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示,這個框架在MIMIC-III-50數據集上表現優於傳統微調方法,特別是在編碼器-解碼器模型中,準確率和F1分數都有顯著提升。 PubMed DOI

這項研究開發了DiMB-RE,專注於飲食與微生物組的關聯,旨在增進對健康影響的理解並支持個人化營養。DiMB-RE包含15種實體類型和13種關係類型,共有14,450個實體和4,206個關係,來自165篇文獻。經過微調的自然語言處理模型在實體識別和關係提取上表現良好,F1分數分別為0.800和0.445。研究顯示,結果部分的註釋有助於改善關係提取。DiMB-RE是同類中最大的語料庫,相關資源可在GitHub上找到。 PubMed DOI

深度計算文本分析器(DECOTA)是一種新型機器學習工具,能自動分析大量自由文本數據,幫助研究人員和政策制定者更有效地了解公眾意見。透過結構主題建模和精細調整的語言模型,DECOTA能快速識別關鍵主題和代碼,無需大量人力。與傳統方法相比,DECOTA的速度快378倍,成本低1,920倍,且與人類編碼結果高度一致,對於基於證據的政策制定和公眾參與具有重要意義。 PubMed DOI

這項研究推出GDReCo語料庫和本體框架,專門用來提升基因與疾病關聯的文本擷取,解決NLP模型訓練資料不足的問題。GDReCo收錄超過2.4萬筆案例,結合人工與模型標註。用BERT訓練後,模型能更準確擷取基因-疾病關聯,對生醫研究很有幫助,但像ChatGPT這類模型在細節擷取上還是有難度。 PubMed DOI

**重點摘要(繁體中文):** 這項研究提出了 MedCheckLLM,一個利用大型語言模型(LLM)來提升病歷評估的框架,透過把循證醫學指引直接納入審查流程中,讓病歷審查更有效率、更有依據。 PubMed DOI

這項研究發現,只要善用提示工程技巧,即使沒特別微調,公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後,肺癌個案的編碼準確率大幅提升,顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

用ICD-10資料微調大型語言模型後,自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%;應用在臨床紀錄上,精確匹配率達69.2%,分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

這篇研究發現,用GPT-4o這類大型語言模型,只要給很少範例,就能準確從科學文獻中擷取材料性質資料,還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質,幫助了解實際應用時會遇到的問題。 PubMed DOI

CAS 是專為生醫關係抽取等有嚴格結構限制任務設計的資料增強框架,利用大型語言模型產生多樣且合規的資料,並用自我評估過濾器(SemQ)確保品質與一致性。CAS 能維持資料完整性,提升模型表現,適用於多種有約束的 NLP 任務。程式碼連結:https://github.com/ngogiahan149/CAS PubMed DOI