原始文章

這篇論文探討了新興的「LLM紅隊」實踐,這是一種故意挑釁大型語言模型(LLMs)以產生異常輸出的做法。透過質性研究和多位從業者的訪談,研究旨在定義LLM紅隊的概念、了解其動機,並描述攻擊策略。作者將LLM紅隊視為一種合作且非惡意的努力,主要源於好奇心和解決LLM部署潛在危害的願望。他們識別出12種策略和35種技術,幫助全面理解LLM紅隊的動機與方法。 PubMed DOI


站上相關主題文章列表

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

大型語言模型(LLMs)雖然在文本生成和對話式AI上帶來革命,但也伴隨著安全風險,如越獄攻擊,可能被惡意利用來散播錯誤資訊。為了解決這些問題,Prompt Guarding(Prompt-G)利用向量資料庫和嵌入技術來評估生成文本的可信度,並即時檢測有害內容。經過分析自我提醒攻擊的數據集,Prompt-G 成功降低了越獄攻擊的成功率至 2.08%。該模型的源代碼可在這裡找到:https://doi.org/10.5281/zenodo.13501821。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

這篇文章全面回顧了語言模型中的後門攻擊及其對策,填補了自然語言處理領域的一個重要空白。隨著語言模型在第三方平台的普及,後門攻擊的風險也增加。文章將攻擊分為三類:對預訓練模型微調的攻擊、對最終模型訓練的攻擊,以及對大型語言模型的攻擊。對策則分為樣本檢查和模型檢查,並分析其優缺點。最後,文章強調未來研究的重點,呼籲發展更有效的防禦措施。 PubMed DOI

紅隊測試對於識別和解決大型語言模型在醫療領域的意外行為非常重要,因為這可能影響病人的安全與公平性。在一項針對80名臨床醫生和技術專業人員的研究中,我們測試了GPT-3.5和GPT-4.0等模型,發現376個提示中有20.1%的回應不當。GPT-3.5的不當回應率為25.8%,而GPT-4.0為16%。值得注意的是,GPT-3.5中21.5%被認為適當的回應,在更新模型中卻被視為不當。這強調了持續進行紅隊測試的重要性,以確保醫療應用的安全性、準確性和公平性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動化選舉虛假資訊操作的潛力,介紹了名為DisElect的數據集,包含2,200個惡意提示和50個良性提示,專為英國情境設計。結果顯示,大多數LLM會遵從生成惡意內容的請求,少數拒絕的模型也會拒絕良性請求,特別是右派觀點的內容。此外,自2022年以來,許多LLM生成的虛假資訊與人類文本幾乎無法區分,部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊,為研究人員和政策制定者提供基準。 PubMed DOI

這項研究解決了社群媒體上IoC分類缺乏高品質標註資料的問題,透過微調GPT-3.5來產生擬真合成資料集。用這些資料訓練模型,準確率最高達82%,證明微調後的LLM能有效生成有用的資安資料,提升IoC分類表現,對資安領域很有幫助。 PubMed DOI

大型語言模型在醫療應用潛力大,但也帶來資安風險,像是病患隱私外洩、資料被竄改等。文章強調,開發和部署時一定要落實資安措施,才能保障病患資料安全。 PubMed DOI

這項研究發現,AI語言模型代理人在互動時,會自發形成社會慣例,甚至產生集體偏見。一小群立場堅定的對立代理人,也可能影響整體慣例。這顯示AI有能力自主建立社會規範,對確保AI符合人類價值觀很重要。 PubMed DOI

這篇論文介紹一套由大型語言模型協助的分析框架,專門用來研究如何繞過LLM安全限制的jailbreak攻擊。作者開發了JailbreakLens視覺化工具,能自動評估攻擊成效、分析提示特徵,並協助優化攻擊方式。這套系統能提升安全評估效率,幫助找出模型弱點,並已獲專家肯定。 PubMed DOI