Linguacodus: a synergistic framework for transformative code generation in machine learning pipelines.
Linguacodus：一個協同框架，用於機器學習管道中的轉型代碼生成。 PeerJ Comput Sci 2024-12-09

Linguacodus是一個新框架，能將自然語言描述轉換成可執行的程式碼，解決了機器學習中的一大挑戰。它透過動態管道和高階數據指令，逐步將任務描述轉換為程式碼。核心是經過微調的大型語言模型，能評估多種解決方案並選擇最佳方案。這項技術在Kaggle的大型數據集上經過實驗，顯示出其有效性，並在各機器學習領域展現潛在應用。 PubMed DOI

How to leverage large language models for automatic ICD coding.
如何利用大型語言模型進行自動 ICD 編碼。 Comput Biol Med 2025-03-15

這項研究探討自動ICD編碼的挑戰，對保險理賠和疾病研究非常重要。由於臨床筆記複雜且變化多，手動編碼常常慢且易出錯。為了提升大型語言模型（LLMs）的表現，作者提出了一個微調框架，結合標籤注意機制、醫學知識注入及知識驅動的抽樣。實驗結果顯示，這個框架在MIMIC-III-50數據集上表現優於傳統微調方法，特別是在編碼器-解碼器模型中，準確率和F1分數都有顯著提升。 PubMed DOI

DiMB-RE: mining the scientific literature for diet-microbiome associations.
DiMB-RE：挖掘科學文獻以尋找飲食-微生物組的關聯。 J Am Med Inform Assoc 2025-03-28

這項研究開發了DiMB-RE，專注於飲食與微生物組的關聯，旨在增進對健康影響的理解並支持個人化營養。DiMB-RE包含15種實體類型和13種關係類型，共有14,450個實體和4,206個關係，來自165篇文獻。經過微調的自然語言處理模型在實體識別和關係提取上表現良好，F1分數分別為0.800和0.445。研究顯示，結果部分的註釋有助於改善關係提取。DiMB-RE是同類中最大的語料庫，相關資源可在GitHub上找到。 PubMed DOI

The use of large language models for qualitative research: The Deep Computational Text Analyser (DECOTA).
大型語言模型在質性研究中的應用：深度計算文本分析器 (DECOTA)。 Psychol Methods 2025-04-07

深度計算文本分析器（DECOTA）是一種新型機器學習工具，能自動分析大量自由文本數據，幫助研究人員和政策制定者更有效地了解公眾意見。透過結構主題建模和精細調整的語言模型，DECOTA能快速識別關鍵主題和代碼，無需大量人力。與傳統方法相比，DECOTA的速度快378倍，成本低1,920倍，且與人類編碼結果高度一致，對於基於證據的政策制定和公眾參與具有重要意義。 PubMed DOI

GDReCo: Fine-grained gene-disease relationship extraction corpus.
GDReCo：細緻型基因-疾病關係擷取語料庫 Comput Methods Programs Biomed 2025-04-17

這項研究推出GDReCo語料庫和本體框架，專門用來提升基因與疾病關聯的文本擷取，解決NLP模型訓練資料不足的問題。GDReCo收錄超過2.4萬筆案例，結合人工與模型標註。用BERT訓練後，模型能更準確擷取基因-疾病關聯，對生醫研究很有幫助，但像ChatGPT這類模型在細節擷取上還是有難度。 PubMed DOI

Guideline-Incorporated Large Language Model-Driven Evaluation of Medical Records Using MedCheckLLM.
結合指引的大型語言模型驅動之醫療紀錄評估：以 MedCheckLLM 為例 JMIR Form Res 2025-04-24

**重點摘要（繁體中文）:** 這項研究提出了 MedCheckLLM，一個利用大型語言模型（LLM）來提升病歷評估的框架，透過把循證醫學指引直接納入審查流程中，讓病歷審查更有效率、更有依據。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

Extracting Material Property Measurements from Scientific Literature with Limited Annotations.
從有限註解的科學文獻中擷取材料性質測量數據 J Chem Inf Model 2025-05-13

這篇研究發現，用GPT-4o這類大型語言模型，只要給很少範例，就能準確從科學文獻中擷取材料性質資料，還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質，幫助了解實際應用時會遇到的問題。 PubMed DOI

CAS: enhancing implicit constrained data augmentation with semantic enrichment for biomedical relation extraction and beyond.
CAS：以語意增強提升隱式約束式資料增補於生醫關係擷取及其延伸應用 Database (Oxford) 2025-07-03

CAS 是專為生醫關係抽取等有嚴格結構限制任務設計的資料增強框架，利用大型語言模型產生多樣且合規的資料，並用自我評估過濾器（SemQ）確保品質與一致性。CAS 能維持資料完整性，提升模型表現，適用於多種有約束的 NLP 任務。程式碼連結：https://github.com/ngogiahan149/CAS PubMed DOI

原始文章

站上相關主題文章列表