Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks.
利用大型語言模型生成合成數據以提高基於BERT的神經網絡性能。 AMIA Jt Summits Transl Sci Proc 2024-06-03

醫療專家不足是個大問題，但機器學習可輔助篩檢和診斷。建立龐大且具代表性的資料集成本高，因此使用大型語言模型生成自閉症相關行為的合成範例。目標是透過標記符合自閉症標準的行為提高模型準確性。評估顯示，合成資料有高比例的正確行為範例-標記對。增加資料集可提高召回率，但會降低精確度。未來研究將探討合成資料特徵對機器學習結果的影響。 PubMed DOI

A cross-dataset study on automatic detection of autism spectrum disorder from text data.
從文本數據自動檢測自閉症譜系障礙的跨數據集研究。 Acta Psychiatr Scand 2024-07-20

這篇文章探討利用先進的機器學習技術來檢測自閉症譜系障礙（ASD）。研究主要有三個目標：評估模型在不同數據集上的有效性、檢視模型之間的知識轉移潛力，以及評估數據增強對模型表現的影響。研究使用了微調HerBERT和OpenAI的文本嵌入技術，數據集來自TLC工具和ADOS-2。結果顯示，模型在TLC數據上表現較好，但知識轉移未見成效，且數據增強技術可能掩蓋重要信號。總體而言，模型的有效性受數據類型和診斷工具影響。 PubMed DOI

From hate to harmony: Leveraging large language models for safer speech in times of COVID-19 crisis.
從仇恨到和諧：在 COVID-19 危機期間利用大型語言模型促進更安全的言論。 Heliyon 2024-09-02

這項研究探討了 COVID-19 疫情期間攻擊性語言的增加，並利用機器學習技術來解決這個問題。研究建立了一個檢測和轉化中文仇恨言論的框架，並編制了包含 30 個疫情相關術語的數據集。開發的兩層檢測模型準確率分別為 94.42% 和 81.48%。結合生成式 AI 和 LDA 主題模型，提升了改寫效率，並有效減少敵意，保持核心意義。這種方法提供建設性的改寫建議，促進積極公共討論，幫助遏制仇恨言論。 PubMed DOI

GBERT: A hybrid deep learning model based on GPT-BERT for fake news detection.
GBERT：基於 GPT-BERT 的混合深度學習模型用於假新聞檢測。 Heliyon 2024-09-02

數位時代讓全球溝通變得更方便，但也帶來假新聞的問題，這些虛假資訊扭曲真相，影響社會和諧及公共輿論。因此，假新聞的檢測成為重要研究領域。本文介紹了一個新框架——生成雙向編碼器表示法（GBERT），結合了GPT和BERT的優勢，專門用於假新聞分類。經過微調後，該框架在兩個數據集上表現出色，準確率達95.30%，顯示出其在對抗錯誤資訊方面的潛力。 PubMed DOI

Harnessing AI and analytics to enhance cybersecurity and privacy for collective intelligence systems.
利用人工智慧和分析技術增強集體智慧系統的網絡安全與隱私。 PeerJ Comput Sci 2024-09-24

這項研究探討人工智慧、大數據分析與網路安全的交集，特別是如何透過創新方法增強安全性與隱私。研究強調自然語言處理在提升資訊安全的潛力，並評估平衡數據效用與個人隱私的技術。重要貢獻是提出一種新穎的惡意軟體檢測方法，利用深度學習技術，將惡意檔案轉換為灰階圖像進行分析，達到99.86%的檢測準確率。研究結果顯示深度學習在揭示複雜系統隱藏模式的有效性，推進計算安全領域的發展。 PubMed DOI

Scalable watermarking for identifying large language model outputs.
可擴展的水印技術用於識別大型語言模型的輸出。 Nature 2024-10-24

大型語言模型（LLMs）能生成類似人類的高品質文本，對資訊生態系統影響深遠。為了防止濫用，水印技術可用於識別合成文本，但因質量和檢測性等挑戰，尚未普遍應用。這篇論文介紹了SynthID-Text，一種專為生產設計的水印方案，能在不影響文本質量的情況下，實現高檢測準確率。實驗顯示，SynthID-Text在可檢測性上優於其他方法，並保持LLM性能，作者希望能推動水印技術的發展，促進負責任的LLM使用。 PubMed DOI

Investigating generative AI models and detection techniques: impacts of tokenization and dataset size on identification of AI-generated text.
探討生成式 AI 模型及檢測技術：標記化和數據集大小對識別 AI 生成文本的影響。 Front Artif Intell 2024-12-04

這項研究探討了生成式 AI 模型（如 ChatGPT、Gemini 和 Claude）在 K-12 教育中的應用，強調其在各科目的優勢，並討論學術不誠實的倫理問題。研究使用傳統機器學習模型和大型語言模型來檢測高風險寫作評估中的 AI 生成內容，並評估檢測方法的效果，考慮改寫工具的影響。研究還引入新方法，利用同義詞資訊識別人性化的 AI 文字，並探討數據集大小對模型表現的影響，以指導未來的數據收集。 PubMed DOI

Efficient anomaly detection in tabular cybersecurity data using large language models.
使用大型語言模型在表格型網絡安全數據中進行高效異常檢測。 Sci Rep 2025-01-27

這篇論文介紹了一種新的網路安全異常檢測方法，叫做「透過引導提示的表格異常檢測」（TAD-GP）。它使用了一個擁有70億參數的開源大型語言模型，並結合了多種創新策略，如數據樣本引入和思考鏈推理。實驗結果顯示，這個方法在三個數據集上F1分數顯著提升，分別增加了79.31%、97.96%和59.09%。特別是較小的TAD-GP模型在性能上超越了大型模型，顯示出在資源有限環境中的有效性，適合私有部署，填補了網路安全異常檢測的重要空白。 PubMed DOI

Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review.
自然語言處理模型中的後門攻擊與對策：全面的安全性回顧。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這篇文章全面回顧了語言模型中的後門攻擊及其對策，填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及，後門攻擊的風險也增加。文章將攻擊分為三類：對預訓練模型微調的攻擊、對最終模型訓練的攻擊，以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查，並分析其優缺點。最後，文章強調未來研究的重點，呼籲發展更有效的防禦措施。 PubMed DOI

Synthetic Data-Driven Approaches for Chinese Medical Abstract Sentence Classification: Computational Study.
基於合成數據驅動的中文醫學摘要句子分類方法：計算研究。 JMIR Form Res 2025-03-19

這項研究針對分類中文醫學摘要的挑戰，對改善醫學資料庫的搜尋和文獻回顧非常重要。由於缺乏合適的數據集，我們生成了三個訓練數據集和一個測試數據集，以提升分類準確性。數據集 #1 來自 PubMed 的 15,000 條翻譯摘要，數據集 #2 和 #3 則是從 40,000 條中文醫學摘要中生成的。透過 SBERT 嵌入進行語義分析，我們的模型在分類效果上顯著提升，SBERT-DocSCAN 在數據集 #3 上達到最高準確率 91.30%。這項研究不僅生成了有價值的數據集，還證明了模型的有效性。 PubMed DOI

原始文章

站上相關主題文章列表