原始文章

這篇論文介紹一套由大型語言模型協助的分析框架,專門用來研究如何繞過LLM安全限制的jailbreak攻擊。作者開發了JailbreakLens視覺化工具,能自動評估攻擊成效、分析提示特徵,並協助優化攻擊方式。這套系統能提升安全評估效率,幫助找出模型弱點,並已獲專家肯定。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)雖然在文本生成和對話式AI上帶來革命,但也伴隨著安全風險,如越獄攻擊,可能被惡意利用來散播錯誤資訊。為了解決這些問題,Prompt Guarding(Prompt-G)利用向量資料庫和嵌入技術來評估生成文本的可信度,並即時檢測有害內容。經過分析自我提醒攻擊的數據集,Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到:https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

這篇論文探討了新興的「LLM紅隊」實踐,這是一種故意挑釁大型語言模型(LLMs)以產生異常輸出的做法。透過質性研究和多位從業者的訪談,研究旨在定義LLM紅隊的概念、了解其動機,並描述攻擊策略。作者將LLM紅隊視為一種合作且非惡意的努力,主要源於好奇心和解決LLM部署潛在危害的願望。他們識別出12種策略和35種技術,幫助全面理解LLM紅隊的動機與方法。 PubMed DOI

這項研究指出醫療領域的視覺語言模型(VLMs)存在重大安全漏洞,容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下,生成有害資訊。研究評估了四個先進的VLMs,發現它們皆有脆弱性,尤其是將微妙提示嵌入醫學影像中,可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險,顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI

這篇論文評估了兩個大型語言模型(LLMs)的視覺素養,分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力,但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試(VLAT),結果顯示這些 LLMs 的視覺素養水平低於普通公眾,且在回答問題時多依賴先前知識,而非視覺化呈現的信息。 PubMed DOI

這篇文章全面回顧了語言模型中的後門攻擊及其對策,填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及,後門攻擊的風險也增加。文章將攻擊分為三類:對預訓練模型微調的攻擊、對最終模型訓練的攻擊,以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查,並分析其優缺點。最後,文章強調未來研究的重點,呼籲發展更有效的防禦措施。 PubMed DOI

隨著Midjourney和DALL·E 3等文本生成圖像模型的興起,內容創作方式發生了變化,但也帶來了倫理問題,特別是開源模型被濫用的風險。為了解決這些問題,我們提出了Ethical-Lens框架,旨在確保這些工具的使用符合道德標準,而不需改變模型本身。Ethical-Lens透過優化用戶輸入和修正模型輸出來解決毒性和偏見問題。我們的實驗顯示,Ethical-Lens能提升對齊能力,並在圖像生成品質上達到或超越商業模型的水準,顯示其在推動開源工具負責任發展的潛力。 PubMed DOI

大型語言模型(LLMs)雖然受到廣泛關注,但其潛在的濫用風險也令人擔憂,特別是越獄提示(jailbreak prompts)這類攻擊。雖然LLMs會定期更新安全措施,但惡意用戶常隱藏成功的提示,讓識別漏洞變得困難。為了解決這個問題,我們提出了JailbreakHunter,一個視覺分析工具,能夠識別對話數據中的越獄提示。它包含三個分析層級,幫助用戶了解對話分佈、追蹤進展及探索提示的相似性,顯示出增強LLM互動中越獄提示檢測的潛力。 PubMed DOI

ACBreaker 是一套用大型語言模型(LLM)協助找出物聯網裝置網頁介面存取控制漏洞的新方法。它會先把韌體程式碼拆成小區塊,再用 LLM 萃取裝置細節,最後結合模糊測試來找漏洞。實測 11 款裝置,發現 39 個新漏洞,部分還拿到 CVE 編號。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI