HomeThemaOnderzoek & TrendsDeepSeek meest kwetsbare AI-model volgens onderzoek van Cisco en Universiteit van Pennsylvania

DeepSeek meest kwetsbare AI-model volgens onderzoek van Cisco en Universiteit van Pennsylvania

Date:

Related stories

Nederland stijgt naar tiende plek wereldwijd in werkgelegenheidsverwachting

De Nederlandse arbeidsmarkt laat voor het tweede kwartaal van...

Travolta en Shell Recharge lanceren platform voor laden met directe voordelen

Travolta, een nieuw mobiliteitslabel van MultiTankcard, lanceert landelijk een...

AIVD waarschuwt voor Russische cybercampagne gericht op Signal en WhatsApp

Russische staatshackers proberen wereldwijd toegang te krijgen tot Signal-...

Lucanet klaar voor nieuwe KvK-verplichting met AI-gedreven XBRL Tagger

Lucanet introduceert een belangrijke update van zijn XBRL Tagger...
spot_imgspot_img

Claude 3.5 en o1 minst vatbaar voor jailbreaks

AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania waarschuwen voor de zwakke beveiliging en potentieel misleidende resultaten van DeepSeek R1. Het nieuwe AI-model genoot de voorbije weken veel aandacht omdat het voor een doorbraak kan zorgen in de adoptie, ontwikkeling en democratisering van artificiële intelligentie. De onderzoekers hebben DeepSeek en vijf andere AI-modellen onderworpen aan ruim 50 jailbreaks, een techniek om met prompts AI-modellen te misleiden.

Het lijdt geen twijfel dat de prestaties van DeepSeek een grote impact hebben op het AI-landschap. AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania hebben nu ook de beveiliging van de tool en zijn reasoningmogelijkheden getoetst. Ze onderwierpen zes gekende AI-tools aan 50 prompts uit de erkende HarmBench-dataset. Die benchmark telt 400 gedragingen in 7 categorieën waaronder cybercriminaliteit en illegale activiteiten. Bij DeepSeek behaalden de onderzoekers dus een succespercentage van 100%: alle 50 jailbreakpogingen slaagden wat de kwetsbaarheid van het model onderstreept. Bij de andere modellen die gevoelig zijn voor jailbreaks vinden we Llama 3.1 (96%), GPT-4.0 (86%) en Gemini 1.5 (64%). Modellen die beter beschermd bleken en een lager succespercentage bij aanvallen hebben, zijn Claude 3.5 (36%) en o1 (26%).


Een AI-model dat vatbaar is voor jailbreaks kan ongewild informatie vrijgeven om bijvoorbeeld cybercriminaliteit of andere illegale activiteiten te ondersteunen. Tijdens het onderzoek detecteerde of blokkeerde DeepSeek R1 geen enkele schadelijke prompt, terwijl enkele andere gekende modellen wel gedeeltelijke weerstand vertoonden. De trainingsmethoden van DeepSeek, zoals zelfevaluatie en distillatie, zijn kostenefficiënt maar brengen de veiligheid in gevaar. Het ontbreekt de AI-tool aan de nodige, robuuste vangrails om jailbreaks en potentieel misbruik tegen te gaan“, zegt Jan Heijdra, Field CTO Security bij Cisco Nederland.

Voor de ontwikkeling van R1 combineerde DeepSeek chain-of-thought prompting en reinforcement learning met distillatie. Zo ontstond een kleiner AI-model dat in redeneertaken aanzienlijk beter presteert dan traditionele grote taalmodellen (LLM’s) met behoud van een hoge operationele efficiëntie. Chain-of-thought prompting stelt het model in staat zijn eigen prestaties te evalueren, terwijl reinforcement learning het model helpt zichzelf te sturen. Distillatie maakte het mogelijk een kleiner model te ontwikkelen, met een fractie van de ruim zeshonderd miljard parameters van grotere taalmodellen.

Het onderzoek van Talos en de Universiteit van Pennsylvania onderstreept de noodzaak van strenge veiligheidsevaluaties bij de ontwikkeling van artificiële intelligentie, zodat de doorbraken in efficiëntie niet ten koste gaan van de veiligheid. Ook bevestigt het dat bedrijven best vangrails van derde partijen gebruiken die de betrouwbaarheid en bescherming van AI-toepassingen verhogen.

Redactie
Redactiehttps://www.kantoor.nl
Artikelen geschreven door de redactie van Kantoor.nl. Alles op het gebied van Marketing, Sales, AI, online business, media, technologie en e-commerce. Heb je nieuws? Mail ons: redactie@kantoor.nl.

Laatste Nieuws

spot_img

Subscribe

- Never miss a story with notifications

- Gain full access to our premium content

- Browse free from up to 5 devices at once

Latest stories

spot_img

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.