原始文章

這篇論文探討Android惡意軟體檢測的挑戰,特別是因為Android系統普及和隱私問題導致的流量數據不足。它提出了一個名為Syn-detect的兩步驟智慧感知模型,利用大型語言模型(LLMs)來生成和分類網路流量中的惡意軟體。 首先,使用GPT-2生成合成的TCP惡意流量數據,然後用微調過的BERT模型進行分類。Syn-detect在CIC-AndMal2017和CIC-AAGM2017數據集上表現優異,準確率分別達99.8%和99.3%,顯示出其在行動安全上的有效性。 PubMed DOI


站上相關主題文章列表

醫療專家不足是個大問題,但機器學習可輔助篩檢和診斷。建立龐大且具代表性的資料集成本高,因此使用大型語言模型生成自閉症相關行為的合成範例。目標是透過標記符合自閉症標準的行為提高模型準確性。評估顯示,合成資料有高比例的正確行為範例-標記對。增加資料集可提高召回率,但會降低精確度。未來研究將探討合成資料特徵對機器學習結果的影響。 PubMed DOI

這篇文章探討利用先進的機器學習技術來檢測自閉症譜系障礙(ASD)。研究主要有三個目標:評估模型在不同數據集上的有效性、檢視模型之間的知識轉移潛力,以及評估數據增強對模型表現的影響。研究使用了微調HerBERT和OpenAI的文本嵌入技術,數據集來自TLC工具和ADOS-2。結果顯示,模型在TLC數據上表現較好,但知識轉移未見成效,且數據增強技術可能掩蓋重要信號。總體而言,模型的有效性受數據類型和診斷工具影響。 PubMed DOI

這項研究探討了 COVID-19 疫情期間攻擊性語言的增加,並利用機器學習技術來解決這個問題。研究建立了一個檢測和轉化中文仇恨言論的框架,並編制了包含 30 個疫情相關術語的數據集。開發的兩層檢測模型準確率分別為 94.42% 和 81.48%。結合生成式 AI 和 LDA 主題模型,提升了改寫效率,並有效減少敵意,保持核心意義。這種方法提供建設性的改寫建議,促進積極公共討論,幫助遏制仇恨言論。 PubMed DOI

數位時代讓全球溝通變得更方便,但也帶來假新聞的問題,這些虛假資訊扭曲真相,影響社會和諧及公共輿論。因此,假新聞的檢測成為重要研究領域。本文介紹了一個新框架——生成雙向編碼器表示法(GBERT),結合了GPT和BERT的優勢,專門用於假新聞分類。經過微調後,該框架在兩個數據集上表現出色,準確率達95.30%,顯示出其在對抗錯誤資訊方面的潛力。 PubMed DOI

這項研究探討人工智慧、大數據分析與網路安全的交集,特別是如何透過創新方法增強安全性與隱私。研究強調自然語言處理在提升資訊安全的潛力,並評估平衡數據效用與個人隱私的技術。重要貢獻是提出一種新穎的惡意軟體檢測方法,利用深度學習技術,將惡意檔案轉換為灰階圖像進行分析,達到99.86%的檢測準確率。研究結果顯示深度學習在揭示複雜系統隱藏模式的有效性,推進計算安全領域的發展。 PubMed DOI

大型語言模型(LLMs)能生成類似人類的高品質文本,對資訊生態系統影響深遠。為了防止濫用,水印技術可用於識別合成文本,但因質量和檢測性等挑戰,尚未普遍應用。這篇論文介紹了SynthID-Text,一種專為生產設計的水印方案,能在不影響文本質量的情況下,實現高檢測準確率。實驗顯示,SynthID-Text在可檢測性上優於其他方法,並保持LLM性能,作者希望能推動水印技術的發展,促進負責任的LLM使用。 PubMed DOI

這項研究探討了生成式 AI 模型(如 ChatGPT、Gemini 和 Claude)在 K-12 教育中的應用,強調其在各科目的優勢,並討論學術不誠實的倫理問題。研究使用傳統機器學習模型和大型語言模型來檢測高風險寫作評估中的 AI 生成內容,並評估檢測方法的效果,考慮改寫工具的影響。研究還引入新方法,利用同義詞資訊識別人性化的 AI 文字,並探討數據集大小對模型表現的影響,以指導未來的數據收集。 PubMed DOI

這篇論文介紹了一種新的網路安全異常檢測方法,叫做「透過引導提示的表格異常檢測」(TAD-GP)。它使用了一個擁有70億參數的開源大型語言模型,並結合了多種創新策略,如數據樣本引入和思考鏈推理。實驗結果顯示,這個方法在三個數據集上F1分數顯著提升,分別增加了79.31%、97.96%和59.09%。特別是較小的TAD-GP模型在性能上超越了大型模型,顯示出在資源有限環境中的有效性,適合私有部署,填補了網路安全異常檢測的重要空白。 PubMed DOI

這篇文章全面回顧了語言模型中的後門攻擊及其對策,填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及,後門攻擊的風險也增加。文章將攻擊分為三類:對預訓練模型微調的攻擊、對最終模型訓練的攻擊,以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查,並分析其優缺點。最後,文章強調未來研究的重點,呼籲發展更有效的防禦措施。 PubMed DOI

這項研究針對分類中文醫學摘要的挑戰,對改善醫學資料庫的搜尋和文獻回顧非常重要。由於缺乏合適的數據集,我們生成了三個訓練數據集和一個測試數據集,以提升分類準確性。數據集 #1 來自 PubMed 的 15,000 條翻譯摘要,數據集 #2 和 #3 則是從 40,000 條中文醫學摘要中生成的。透過 SBERT 嵌入進行語義分析,我們的模型在分類效果上顯著提升,SBERT-DocSCAN 在數據集 #3 上達到最高準確率 91.30%。這項研究不僅生成了有價值的數據集,還證明了模型的有效性。 PubMed DOI