原始文章

這篇論文探討Android惡意軟體檢測的挑戰,特別是因為Android系統普及和隱私問題導致的流量數據不足。它提出了一個名為Syn-detect的兩步驟智慧感知模型,利用大型語言模型(LLMs)來生成和分類網路流量中的惡意軟體。 首先,使用GPT-2生成合成的TCP惡意流量數據,然後用微調過的BERT模型進行分類。Syn-detect在CIC-AndMal2017和CIC-AAGM2017數據集上表現優異,準確率分別達99.8%和99.3%,顯示出其在行動安全上的有效性。 PubMed DOI


站上相關主題文章列表

這篇論文介紹了一種新的網路安全異常檢測方法,叫做「透過引導提示的表格異常檢測」(TAD-GP)。它使用了一個擁有70億參數的開源大型語言模型,並結合了多種創新策略,如數據樣本引入和思考鏈推理。實驗結果顯示,這個方法在三個數據集上F1分數顯著提升,分別增加了79.31%、97.96%和59.09%。特別是較小的TAD-GP模型在性能上超越了大型模型,顯示出在資源有限環境中的有效性,適合私有部署,填補了網路安全異常檢測的重要空白。 PubMed DOI

這篇文章全面回顧了語言模型中的後門攻擊及其對策,填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及,後門攻擊的風險也增加。文章將攻擊分為三類:對預訓練模型微調的攻擊、對最終模型訓練的攻擊,以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查,並分析其優缺點。最後,文章強調未來研究的重點,呼籲發展更有效的防禦措施。 PubMed DOI

這項研究針對分類中文醫學摘要的挑戰,對改善醫學資料庫的搜尋和文獻回顧非常重要。由於缺乏合適的數據集,我們生成了三個訓練數據集和一個測試數據集,以提升分類準確性。數據集 #1 來自 PubMed 的 15,000 條翻譯摘要,數據集 #2 和 #3 則是從 40,000 條中文醫學摘要中生成的。透過 SBERT 嵌入進行語義分析,我們的模型在分類效果上顯著提升,SBERT-DocSCAN 在數據集 #3 上達到最高準確率 91.30%。這項研究不僅生成了有價值的數據集,還證明了模型的有效性。 PubMed DOI

資訊保障和網路安全隨著科技進步和威脅複雜化而不斷演變。本研究利用大型語言模型和自然語言處理技術,分析1967年至2024年的文獻,資料來自62,000多份Scopus文件。研究分為兩個階段:主題檢測和自動摘要,並針對不同時間區間進行分析。結果顯示,綜合方法在關鍵字定義任務中有顯著改進,生成的摘要在多項指標上表現優異,並保持書目參考的邏輯完整性,突顯資訊保障的焦點轉變及未來趨勢。 PubMed DOI

這項研究建立了一個結合人類和 ChatGPT 生成文本的資料集,訓練多種機器學習模型來偵測 AI 內容。以 Transformer 架構、特別是自訂 RoBERTa 模型,能有效分辨 AI 與人類文本(F1 分數 0.992,準確率 0.991),為 AI 文字偵測提供強力基準。未來建議擴展到其他 AI 來源並持續優化偵測技術。 PubMed DOI

這項研究用NLP技術自動抓取SARS-CoV-2相關論文中的病患元資料。團隊用BERT模型訓練分類器,並比較生成式AI(Llama-3-70B)的表現。結果顯示,針對生醫或COVID-19文本預訓練的BERT模型效果最好,F1-score達0.776,明顯優於生成式AI(F1-score僅0.558)。這方法已應用於35萬多篇文章,有助於基因流行病學研究。 PubMed DOI

這項研究解決了社群媒體上IoC分類缺乏高品質標註資料的問題,透過微調GPT-3.5來產生擬真合成資料集。用這些資料訓練模型,準確率最高達82%,證明微調後的LLM能有效生成有用的資安資料,提升IoC分類表現,對資安領域很有幫助。 PubMed DOI

這篇論文用大型語言模型產生了1.7萬則帶有不良藥物事件標註的合成推文,解決社群媒體上缺乏標註資料的問題。用這些資料預訓練的NER模型,在真實推文上表現更好,經人工標註資料微調後更創新高,證明合成資料能大幅提升ADE偵測效果,且資料集已公開。 PubMed DOI

這項研究發現,經LoRA微調的LLaMA 3.2 1B-Instruct輕量級大型語言模型,在偵測物聯網糖尿病管理裝置異常行為時,準確率高達99.91%,且完全沒有誤報,表現比其他模型更好。結果證明LLM能有效提升醫療裝置的資安與可靠性,對醫療照護很有幫助。 PubMed DOI

這篇研究針對社群媒體假新聞氾濫,提出多階段轉移學習架構,結合RoBERTa和不同詞嵌入技術,並改良微調方式。實驗顯示,這方法在資料少時準確率提升至少3.9%,而且結果更容易解釋,優於現有模型。 PubMed DOI