原始文章

這篇論文介紹一套由大型語言模型協助的分析框架,專門用來研究如何繞過LLM安全限制的jailbreak攻擊。作者開發了JailbreakLens視覺化工具,能自動評估攻擊成效、分析提示特徵,並協助優化攻擊方式。這套系統能提升安全評估效率,幫助找出模型弱點,並已獲專家肯定。 PubMed DOI


站上相關主題文章列表

這項研究探討誤導性圖表的問題,這些圖表可能會扭曲數據解讀,影響決策。研究強調需要有效的自動檢測方法,特別是在多模態大型語言模型(LLMs)技術進步的情況下。研究分析了一個包含誤導性圖表的數據集,並測試四種不同的LLMs,使用九種提示來識別超過21種圖表相關問題。結果顯示,這些LLMs能理解圖表並批判性解釋數據,顯示它們在對抗誤導性資訊和提升視覺素養方面的潛力。整體而言,研究強調了LLMs在解決誤導性圖表問題上的重要性。 PubMed DOI

這篇論文介紹了AdversaFlow,一個視覺分析系統,旨在提升大型語言模型(LLMs)對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識,限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力,並具備創新的視覺化功能,幫助專家理解對抗動態。論文中提供了定量評估和案例研究,顯示AdversaFlow能有效提升LLM的安全性,特別在社交媒體監管等應用上,能幫助檢測和減輕有害內容。 PubMed DOI

大型語言模型(LLMs)雖然在文本生成和對話式AI上帶來革命,但也伴隨著安全風險,如越獄攻擊,可能被惡意利用來散播錯誤資訊。為了解決這些問題,Prompt Guarding(Prompt-G)利用向量資料庫和嵌入技術來評估生成文本的可信度,並即時檢測有害內容。經過分析自我提醒攻擊的數據集,Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到:https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

這篇論文探討了新興的「LLM紅隊」實踐,這是一種故意挑釁大型語言模型(LLMs)以產生異常輸出的做法。透過質性研究和多位從業者的訪談,研究旨在定義LLM紅隊的概念、了解其動機,並描述攻擊策略。作者將LLM紅隊視為一種合作且非惡意的努力,主要源於好奇心和解決LLM部署潛在危害的願望。他們識別出12種策略和35種技術,幫助全面理解LLM紅隊的動機與方法。 PubMed DOI

這項研究指出醫療領域的視覺語言模型(VLMs)存在重大安全漏洞,容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下,生成有害資訊。研究評估了四個先進的VLMs,發現它們皆有脆弱性,尤其是將微妙提示嵌入醫學影像中,可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險,顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI

這篇文章全面回顧了語言模型中的後門攻擊及其對策,填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及,後門攻擊的風險也增加。文章將攻擊分為三類:對預訓練模型微調的攻擊、對最終模型訓練的攻擊,以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查,並分析其優缺點。最後,文章強調未來研究的重點,呼籲發展更有效的防禦措施。 PubMed DOI

隨著Midjourney和DALL·E 3等文本生成圖像模型的興起,內容創作方式發生了變化,但也帶來了倫理問題,特別是開源模型被濫用的風險。為了解決這些問題,我們提出了Ethical-Lens框架,旨在確保這些工具的使用符合道德標準,而不需改變模型本身。Ethical-Lens透過優化用戶輸入和修正模型輸出來解決毒性和偏見問題。我們的實驗顯示,Ethical-Lens能提升對齊能力,並在圖像生成品質上達到或超越商業模型的水準,顯示其在推動開源工具負責任發展的潛力。 PubMed DOI

大型語言模型(LLMs)雖然受到廣泛關注,但其潛在的濫用風險也令人擔憂,特別是越獄提示(jailbreak prompts)這類攻擊。雖然LLMs會定期更新安全措施,但惡意用戶常隱藏成功的提示,讓識別漏洞變得困難。為了解決這個問題,我們提出了JailbreakHunter,一個視覺分析工具,能夠識別對話數據中的越獄提示。它包含三個分析層級,幫助用戶了解對話分佈、追蹤進展及探索提示的相似性,顯示出增強LLM互動中越獄提示檢測的潛力。 PubMed DOI

ACBreaker 是一套用大型語言模型(LLM)協助找出物聯網裝置網頁介面存取控制漏洞的新方法。它會先把韌體程式碼拆成小區塊,再用 LLM 萃取裝置細節,最後結合模糊測試來找漏洞。實測 11 款裝置,發現 39 個新漏洞,部分還拿到 CVE 編號。 PubMed DOI