原始文章

大型語言模型(LLMs)雖然受到廣泛關注,但其潛在的濫用風險也令人擔憂,特別是越獄提示(jailbreak prompts)這類攻擊。雖然LLMs會定期更新安全措施,但惡意用戶常隱藏成功的提示,讓識別漏洞變得困難。為了解決這個問題,我們提出了JailbreakHunter,一個視覺分析工具,能夠識別對話數據中的越獄提示。它包含三個分析層級,幫助用戶了解對話分佈、追蹤進展及探索提示的相似性,顯示出增強LLM互動中越獄提示檢測的潛力。 PubMed DOI


站上相關主題文章列表

視覺分析很重要,但常遇到數據繁雜問題。智慧型方法必不可少,大型語言模型可幫忙解讀文本。LEVA框架運用這些模型來強化視覺分析流程,提供建議見解和報告,有效支援使用者。經研究證實LEVA有助於使用者進行視覺分析。 PubMed DOI

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

最近大型語言模型和提示工程的進展,讓自訂聊天機器人變得更容易,不再需要程式設計技能。不過,進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰,並提出了一個以特徵為導向的提示評估工作流程,特別針對文本摘要,強調根據摘要特徵來評估提示,而非僅依賴傳統指標。為了支持這個流程,我們推出了Awesum,一個視覺分析系統,幫助用戶識別最佳提示改進。我們的測試顯示,Awesum能有效幫助非技術用戶進行系統性評估,並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

這項研究探討誤導性圖表的問題,這些圖表可能會扭曲數據解讀,影響決策。研究強調需要有效的自動檢測方法,特別是在多模態大型語言模型(LLMs)技術進步的情況下。研究分析了一個包含誤導性圖表的數據集,並測試四種不同的LLMs,使用九種提示來識別超過21種圖表相關問題。結果顯示,這些LLMs能理解圖表並批判性解釋數據,顯示它們在對抗誤導性資訊和提升視覺素養方面的潛力。整體而言,研究強調了LLMs在解決誤導性圖表問題上的重要性。 PubMed DOI

這篇論文介紹了AdversaFlow,一個視覺分析系統,旨在提升大型語言模型(LLMs)對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識,限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力,並具備創新的視覺化功能,幫助專家理解對抗動態。論文中提供了定量評估和案例研究,顯示AdversaFlow能有效提升LLM的安全性,特別在社交媒體監管等應用上,能幫助檢測和減輕有害內容。 PubMed DOI

大型語言模型(LLMs)如ChatGPT進入教育領域,將透過創新的對話方式改變學習體驗。為了幫助學生更好利用ChatGPT,教師需了解學生的互動方式,但缺乏相關數據使得這一點變得困難。 為了解決這個問題,我們在碩士資料視覺化課程中收集了48名學生的對話數據,並創建了編碼方案來分析互動模式。我們開發的StuGPTViz視覺分析系統能追蹤學生提問時間及ChatGPT回應質量,為教育者提供有價值的見解。研究顯示,StuGPTViz能增強教師對ChatGPT教學價值的理解,並開啟AI驅動的個性化學習解決方案的研究機會。 PubMed DOI

大型語言模型(LLMs)雖然在文本生成和對話式AI上帶來革命,但也伴隨著安全風險,如越獄攻擊,可能被惡意利用來散播錯誤資訊。為了解決這些問題,Prompt Guarding(Prompt-G)利用向量資料庫和嵌入技術來評估生成文本的可信度,並即時檢測有害內容。經過分析自我提醒攻擊的數據集,Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到:https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

這篇論文介紹了一種新的網路安全異常檢測方法,叫做「透過引導提示的表格異常檢測」(TAD-GP)。它使用了一個擁有70億參數的開源大型語言模型,並結合了多種創新策略,如數據樣本引入和思考鏈推理。實驗結果顯示,這個方法在三個數據集上F1分數顯著提升,分別增加了79.31%、97.96%和59.09%。特別是較小的TAD-GP模型在性能上超越了大型模型,顯示出在資源有限環境中的有效性,適合私有部署,填補了網路安全異常檢測的重要空白。 PubMed DOI

這項研究指出醫療領域的視覺語言模型(VLMs)存在重大安全漏洞,容易受到提示注入攻擊。這些攻擊能在不接觸內部參數的情況下,生成有害資訊。研究評估了四個先進的VLMs,發現它們皆有脆弱性,尤其是將微妙提示嵌入醫學影像中,可能導致難以察覺的有害輸出。這對VLMs在臨床上的安全使用構成風險,顯示在廣泛應用前需制定相應的防範措施。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI