原始文章

在建築、工程和建設(AEC)領域,自動合規檢查(ACC)需要自動化解釋建築法規,但因自然語言的細微差異和機器學習資源有限,過程變得複雜。為了解決這些問題,我們推出了CODE-ACCORD,這是一個包含862個獨立句子的數據集,來自英國和芬蘭的建築法規。這些句子完整表達規則,對ACC至關重要。經過12名標註者的手動標註,該數據集提供了4,297個實體和4,329個關係,為機器可讀的規則生成奠定基礎,並支持各種機器學習和自然語言處理任務。 PubMed DOI


站上相關主題文章列表

研究利用機器學習和自然語言處理技術,從科學文獻中提取二氧化碳電催化相關資訊。建立開源語料庫,包含基準和擴展語料庫,並開發精煉大型語言模型。目的是透過現代計算方法,促進發現新型且有效的電催化劑。 PubMed DOI

最新的機器編碼技術進步讓人們擔心大型語言模型(LLM)的分類驗證。這篇論文比較了監督式和半監督式算法在政治數據編碼上的表現,探討LLM分類的驗證。研究評估了模型多次迭代的表現,與專家編碼對比,並考量了提示工程和數據預處理的影響。結果顯示,在熟悉情境下,GPT-4的表現最接近專家編碼,且在不同情境下呈現更一致的編碼。論文最後討論了機器編碼對未來的影響。 PubMed DOI

學術界強調引用的重要性,以確保研究的可信度。這項研究利用自然語言處理技術,檢測生物醫學文獻中的引文錯誤,發現了39.18%的準確性問題。透過NLP方法,成功將引文分類為準確、不準確或不相關,並建立了高效的模型。儘管GPT-4在準確引文方面表現出潛力,但在錯誤引文方面仍有改進空間。檢測引文錯誤仍具挑戰,但透過持續改進,引文品質可望提升。該研究的語料庫和最佳NLP模型可於https://github.com/ScienceNLP-Lab/Citation-Integrity/ 下載。 PubMed DOI

這項研究專注於從非結構化的臨床筆記中提取與腫瘤學相關的結構化資訊,特別是癌症藥物與症狀負擔的關係。研究人員建立了名為CACER的資料集,包含超過48,000個醫療問題和藥物事件的詳細註解。經過微調的BERT和Llama3模型在事件提取上表現最佳,F1分數分別為88.2和88.0,而GPT-4在這些任務中的表現最差。這顯示微調模型在特定任務上更有效,CACER資料庫為未來的醫療資訊提取研究提供了重要資源。 PubMed DOI

Linguacodus是一個新框架,能將自然語言描述轉換成可執行的程式碼,解決了機器學習中的一大挑戰。它透過動態管道和高階數據指令,逐步將任務描述轉換為程式碼。核心是經過微調的大型語言模型,能評估多種解決方案並選擇最佳方案。這項技術在Kaggle的大型數據集上經過實驗,顯示出其有效性,並在各機器學習領域展現潛在應用。 PubMed DOI

癌症案例報告的主要挑戰在於手動審查大量報告的繁瑣過程。目前的做法多依賴基於規則的系統或自訂的監督學習模型來預測診斷代碼。雖然這些方法有潛力,但在實際應用中可能受到偏見影響。我們針對肺癌進行的可行性研究中,開發了一個檢索增強生成(RAG)系統,利用大型語言模型(LLMs)進行癌症登記編碼。結果顯示,未微調的LLMs也能有效運作,且透過提示工程可顯著提升表現,為癌症登記員提供了提高效率與準確性的有力工具。 PubMed DOI

量子級聯雷射(QCL)是一種高效能的半導體雷射,但其設計複雜,需結構化數據來理解其性能。現有數據多為非結構化,主要來自科學文獻,資訊提取技術能協助整理這些數據。開發針對QCL特性的機器學習演算法時,缺乏高品質訓練數據是一大挑戰。雖然大型語言模型(LLMs)在提取材料特性上有潛力,但在特定領域仍有困難。本文介紹了一個新數據集,透過GPT-3.5增強科學文章的範例句子,包含1300個註釋範例,旨在提升LLMs在QCL特性提取的表現。 PubMed DOI

這項研究探討自動ICD編碼的挑戰,對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多,手動編碼常常慢且易出錯。為了提升大型語言模型(LLMs)的表現,作者提出了一個微調框架,結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示,這個框架在MIMIC-III-50數據集上表現優於傳統微調方法,特別是在編碼器-解碼器模型中,準確率和F1分數都有顯著提升。 PubMed DOI

這項研究開發了DiMB-RE,專注於飲食與微生物組的關聯,旨在增進對健康影響的理解並支持個人化營養。DiMB-RE包含15種實體類型和13種關係類型,共有14,450個實體和4,206個關係,來自165篇文獻。經過微調的自然語言處理模型在實體識別和關係提取上表現良好,F1分數分別為0.800和0.445。研究顯示,結果部分的註釋有助於改善關係提取。DiMB-RE是同類中最大的語料庫,相關資源可在GitHub上找到。 PubMed DOI

深度計算文本分析器(DECOTA)是一種新型機器學習工具,能自動分析大量自由文本數據,幫助研究人員和政策制定者更有效地了解公眾意見。透過結構主題建模和精細調整的語言模型,DECOTA能快速識別關鍵主題和代碼,無需大量人力。與傳統方法相比,DECOTA的速度快378倍,成本低1,920倍,且與人類編碼結果高度一致,對於基於證據的政策制定和公眾參與具有重要意義。 PubMed DOI