Mitigating adversarial manipulation in LLMs: a prompt-based approach to counter Jailbreak attacks (Prompt-G).
減輕大型語言模型中的對抗性操控：一種基於提示的對策以應對 Jailbreak 攻擊 (Prompt-G)。 PeerJ Comput Sci 2024-12-09

大型語言模型（LLMs）雖然在文本生成和對話式AI上帶來革命，但也伴隨著安全風險，如越獄攻擊，可能被惡意利用來散播錯誤資訊。為了解決這些問題，Prompt Guarding（Prompt-G）利用向量資料庫和嵌入技術來評估生成文本的可信度，並即時檢測有害內容。經過分析自我提醒攻擊的數據集，Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到：https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

Summon a demon and bind it: A grounded theory of LLM red teaming.
召喚惡魔並束縛它：大型語言模型紅隊的基礎理論。 PLoS One 2025-01-15

這篇論文探討了新興的「LLM紅隊」實踐，這是一種故意挑釁大型語言模型（LLMs）以產生異常輸出的做法。透過質性研究和多位從業者的訪談，研究旨在定義LLM紅隊的概念、了解其動機，並描述攻擊策略。作者將LLM紅隊視為一種合作且非惡意的努力，主要源於好奇心和解決LLM部署潛在危害的願望。他們識別出12種策略和35種技術，幫助全面理解LLM紅隊的動機與方法。 PubMed DOI

Prompt injection attacks on vision language models in oncology.
針對腫瘤學視覺語言模型的提示注入攻擊。 Nat Commun 2025-01-31

這項研究指出醫療領域的視覺語言模型（VLMs）存在重大安全漏洞，容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下，生成有害資訊。研究評估了四個先進的VLMs，發現它們皆有脆弱性，尤其是將微妙提示嵌入醫學影像中，可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險，顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

PromptAid: Visual Prompt Exploration, Perturbation, Testing and Iteration for Large Language Models.
PromptAid: 大型語言模型的視覺提示探索、擾動、測試與迭代。 IEEE Trans Vis Comput Graph 2025-03-03

大型語言模型（LLMs）因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎，讓非專家也能輕鬆使用。不過，撰寫有效的提示卻不容易，因為需要特定知識。為了幫助用戶改善提示，我們開發了PROMPTAID，這是一個互動式的視覺分析系統，能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化，促進關鍵字擾動、意義重述和選擇最佳範例，並經過專家意見和用戶研究驗證，讓用戶能輕鬆迭代提示，生成多樣選項，並有效分析提示表現。 PubMed DOI

Do LLMs Have Visualization Literacy? An Evaluation on Modified Visualizations to Test Generalization in Data Interpretation.
大型語言模型是否具備視覺素養？對修改後的視覺化進行評估以測試數據解釋的泛化能力。 IEEE Trans Vis Comput Graph 2025-03-03

這篇論文評估了兩個大型語言模型（LLMs）的視覺素養，分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力，但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試（VLAT），結果顯示這些 LLMs 的視覺素養水平低於普通公眾，且在回答問題時多依賴先前知識，而非視覺化呈現的信息。 PubMed DOI

Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review.
自然語言處理模型中的後門攻擊與對策：全面的安全性回顧。 IEEE Trans Neural Netw Learn Syst 2025-03-03

這篇文章全面回顧了語言模型中的後門攻擊及其對策，填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及，後門攻擊的風險也增加。文章將攻擊分為三類：對預訓練模型微調的攻擊、對最終模型訓練的攻擊，以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查，並分析其優缺點。最後，文章強調未來研究的重點，呼籲發展更有效的防禦措施。 PubMed DOI

Ethical-Lens: Curbing malicious usages of open-source text-to-image models.
倫理視角：遏制開源文本轉圖像模型的惡意使用。 Patterns (N Y) 2025-04-04

隨著Midjourney和DALL·E 3等文本生成圖像模型的興起，內容創作方式發生了變化，但也帶來了倫理問題，特別是開源模型被濫用的風險。為了解決這些問題，我們提出了Ethical-Lens框架，旨在確保這些工具的使用符合道德標準，而不需改變模型本身。Ethical-Lens透過優化用戶輸入和修正模型輸出來解決毒性和偏見問題。我們的實驗顯示，Ethical-Lens能提升對齊能力，並在圖像生成品質上達到或超越商業模型的水準，顯示其在推動開源工具負責任發展的潛力。 PubMed DOI

JailbreakHunter: A Visual Analytics Approach for Jailbreak Prompts Discovery From Large-Scale Human-LLM Conversational Datasets.
JailbreakHunter：一種從大規模人類-LLM對話數據集中發現越獄提示的視覺分析方法。 IEEE Trans Vis Comput Graph 2025-04-11

大型語言模型（LLMs）雖然受到廣泛關注，但其潛在的濫用風險也令人擔憂，特別是越獄提示（jailbreak prompts）這類攻擊。雖然LLMs會定期更新安全措施，但惡意用戶常隱藏成功的提示，讓識別漏洞變得困難。為了解決這個問題，我們提出了JailbreakHunter，一個視覺分析工具，能夠識別對話數據中的越獄提示。它包含三個分析層級，幫助用戶了解對話分佈、追蹤進展及探索提示的相似性，顯示出增強LLM互動中越獄提示檢測的潛力。 PubMed DOI

Large Language Model-Powered Protected Interface Evasion: Automated Discovery of Broken Access Control Vulnerabilities in Internet of Things Devices.
大型語言模型驅動的保護介面規避：自動化發現物聯網裝置中的Broken Access Control漏洞 Sensors (Basel) 2025-05-14

ACBreaker 是一套用大型語言模型（LLM）協助找出物聯網裝置網頁介面存取控制漏洞的新方法。它會先把韌體程式碼拆成小區塊，再用 LLM 萃取裝置細節，最後結合模糊測試來找漏洞。實測 11 款裝置，發現 39 個新漏洞，部分還拿到 CVE 編號。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

原始文章

站上相關主題文章列表