AdversaFlow: Visual Red Teaming for Large Language Models with Multi-Level Adversarial Flow.
AdversaFlow：針對大型語言模型的多層對抗流可視化紅隊測試。 IEEE Trans Vis Comput Graph 2024-09-16

這篇論文介紹了AdversaFlow，一個視覺分析系統，旨在提升大型語言模型（LLMs）對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識，限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力，並具備創新的視覺化功能，幫助專家理解對抗動態。論文中提供了定量評估和案例研究，顯示AdversaFlow能有效提升LLM的安全性，特別在社交媒體監管等應用上，能幫助檢測和減輕有害內容。 PubMed DOI

Adversarial Attacks on Large Language Models in Medicine.
醫學領域中對大型語言模型的對抗性攻擊。 ArXiv 2024-10-14

大型語言模型（LLMs）在醫療領域展現出改善診斷和病人照護的潛力，但對抗性攻擊使其脆弱，可能導致嚴重後果。本研究分析了LLMs在三個醫療任務中對兩種對抗性攻擊的易受攻擊性，發現無論是開源還是專有模型，都容易被操控。特定領域任務需更多對抗性數據來微調模型，雖然添加這些數據對整體性能影響不大，但改變了模型權重，顯示出檢測和減輕攻擊的潛力。這強調了在醫療應用中加強LLMs安全措施的必要性。 PubMed DOI

CIPHER: Cybersecurity Intelligent Penetration-Testing Helper for Ethical Researcher.
CIPHER：為倫理研究者提供的網絡安全智能滲透測試助手。 Sensors (Basel) 2024-11-09

CIPHER是一款專為滲透測試設計的AI語言模型，旨在協助網路安全領域的專業人士，特別是初學者。它基於300多個高品質資源進行訓練，並採用FARR流程來提升自動化滲透測試的準確性。CIPHER在性能評估中表現優於其他開源模型，尤其在複雜的環境中更顯優勢，顯示出大型語言模型在滲透測試中的局限性。透過進一步擴展和精煉基準，CIPHER的效能還有望持續提升。 PubMed DOI

Mitigating adversarial manipulation in LLMs: a prompt-based approach to counter Jailbreak attacks (Prompt-G).
減輕大型語言模型中的對抗性操控：一種基於提示的對策以應對 Jailbreak 攻擊 (Prompt-G)。 PeerJ Comput Sci 2024-12-09

大型語言模型（LLMs）雖然在文本生成和對話式AI上帶來革命，但也伴隨著安全風險，如越獄攻擊，可能被惡意利用來散播錯誤資訊。為了解決這些問題，Prompt Guarding（Prompt-G）利用向量資料庫和嵌入技術來評估生成文本的可信度，並即時檢測有害內容。經過分析自我提醒攻擊的數據集，Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到：https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review.
自然語言處理模型中的後門攻擊與對策：全面的安全性回顧。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這篇文章全面回顧了語言模型中的後門攻擊及其對策，填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及，後門攻擊的風險也增加。文章將攻擊分為三類：對預訓練模型微調的攻擊、對最終模型訓練的攻擊，以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查，並分析其優缺點。最後，文章強調未來研究的重點，呼籲發展更有效的防禦措施。 PubMed DOI

Large Language Models for Synthetic Dataset Generation of Cybersecurity Indicators of Compromise.
用於生成網路安全威脅指標（Indicators of Compromise, IoC）合成資料集的大型語言模型 Sensors (Basel) 2025-05-14

這項研究解決了社群媒體上IoC分類缺乏高品質標註資料的問題，透過微調GPT-3.5來產生擬真合成資料集。用這些資料訓練模型，準確率最高達82%，證明微調後的LLM能有效生成有用的資安資料，提升IoC分類表現，對資安領域很有幫助。 PubMed DOI

Cybersecurity Threats and Mitigation Strategies for Large Language Models in Health Care.
醫療領域中大型語言模型的網路安全威脅與緩解策略 Radiol Artif Intell 2025-05-14

大型語言模型在醫療應用潛力大，但也帶來資安風險，像是病患隱私外洩、資料被竄改等。文章強調，開發和部署時一定要落實資安措施，才能保障病患資料安全。 PubMed DOI

Exposing Vulnerabilities in Clinical LLMs Through Data Poisoning Attacks: Case Study in Breast Cancer.
透過資料投毒攻擊揭露臨床大型語言模型（LLMs）之弱點：以乳癌為案例研究 AMIA Annu Symp Proc 2025-05-26

這篇研究發現，像 BioGPT 這類臨床大型語言模型，因為訓練資料可能被操控，容易遭到資料投毒攻擊。實驗證明，LLM 的輸出真的會被影響，提醒醫療現場要特別小心，使用 LLM 時要更謹慎負責。 PubMed

JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models.
JailbreakLens：針對大型語言模型的 Jailbreak 攻擊之視覺化分析 IEEE Trans Vis Comput Graph 2025-06-02

這篇論文介紹一套由大型語言模型協助的分析框架，專門用來研究如何繞過LLM安全限制的jailbreak攻擊。作者開發了JailbreakLens視覺化工具，能自動評估攻擊成效、分析提示特徵，並協助優化攻擊方式。這套系統能提升安全評估效率，幫助找出模型弱點，並已獲專家肯定。 PubMed DOI

Lightweight LLM-Based Anomaly Detection Framework for Securing IoTMD Enabled Diabetes Management Control Systems.
用於保護 IoTMD 啟用之糖尿病管理控制系統的輕量級 LLM 為基礎異常偵測框架 IEEE J Biomed Health Inform 2025-06-09

這項研究發現，經LoRA微調的LLaMA 3.2 1B-Instruct輕量級大型語言模型，在偵測物聯網糖尿病管理裝置異常行為時，準確率高達99.91%，且完全沒有誤報，表現比其他模型更好。結果證明LLM能有效提升醫療裝置的資安與可靠性，對醫療照護很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表