16.6 C
Amsterdam
donderdag 20 maart 2025
HomeCoffee CornerOnderzoek & TrendsDeepSeek meest kwetsbare AI-model volgens onderzoek van Cisco en Universiteit van Pennsylvania

DeepSeek meest kwetsbare AI-model volgens onderzoek van Cisco en Universiteit van Pennsylvania

Date:

Related stories

Acer breidt Chromebook-serie uit met de introductie van zeven nieuwe, krachtige en efficiënte modellen

De Acer Chromebook Plus-laptops bieden AI-functies, verbeterde prestaties en...

Google vervangt Assistent door Gemini: Wat betekent dit voor gebruikers?

Google voert een grote verandering door: de Google Assistent...

Cisco en NVIDIA beveiligen AI-infrastructuur met ‘Cisco Secure AI Factory with NVIDIA’

Cisco heeft vandaag samen met NVIDIA een AI-architectuur gepresenteerd...

Gemini introduceert Canvas: een revolutionaire tool voor samenwerking en contentcreatie

Amsterdam, 18 maart 2025 – Gemini, de geavanceerde AI-assistent,...
spot_imgspot_img

Claude 3.5 en o1 minst vatbaar voor jailbreaks

AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania waarschuwen voor de zwakke beveiliging en potentieel misleidende resultaten van DeepSeek R1. Het nieuwe AI-model genoot de voorbije weken veel aandacht omdat het voor een doorbraak kan zorgen in de adoptie, ontwikkeling en democratisering van artificiële intelligentie. De onderzoekers hebben DeepSeek en vijf andere AI-modellen onderworpen aan ruim 50 jailbreaks, een techniek om met prompts AI-modellen te misleiden.

Het lijdt geen twijfel dat de prestaties van DeepSeek een grote impact hebben op het AI-landschap. AI security-onderzoekers van Cisco en de Universiteit van Pennsylvania hebben nu ook de beveiliging van de tool en zijn reasoningmogelijkheden getoetst. Ze onderwierpen zes gekende AI-tools aan 50 prompts uit de erkende HarmBench-dataset. Die benchmark telt 400 gedragingen in 7 categorieën waaronder cybercriminaliteit en illegale activiteiten. Bij DeepSeek behaalden de onderzoekers dus een succespercentage van 100%: alle 50 jailbreakpogingen slaagden wat de kwetsbaarheid van het model onderstreept. Bij de andere modellen die gevoelig zijn voor jailbreaks vinden we Llama 3.1 (96%), GPT-4.0 (86%) en Gemini 1.5 (64%). Modellen die beter beschermd bleken en een lager succespercentage bij aanvallen hebben, zijn Claude 3.5 (36%) en o1 (26%).


Een AI-model dat vatbaar is voor jailbreaks kan ongewild informatie vrijgeven om bijvoorbeeld cybercriminaliteit of andere illegale activiteiten te ondersteunen. Tijdens het onderzoek detecteerde of blokkeerde DeepSeek R1 geen enkele schadelijke prompt, terwijl enkele andere gekende modellen wel gedeeltelijke weerstand vertoonden. De trainingsmethoden van DeepSeek, zoals zelfevaluatie en distillatie, zijn kostenefficiënt maar brengen de veiligheid in gevaar. Het ontbreekt de AI-tool aan de nodige, robuuste vangrails om jailbreaks en potentieel misbruik tegen te gaan“, zegt Jan Heijdra, Field CTO Security bij Cisco Nederland.

Voor de ontwikkeling van R1 combineerde DeepSeek chain-of-thought prompting en reinforcement learning met distillatie. Zo ontstond een kleiner AI-model dat in redeneertaken aanzienlijk beter presteert dan traditionele grote taalmodellen (LLM’s) met behoud van een hoge operationele efficiëntie. Chain-of-thought prompting stelt het model in staat zijn eigen prestaties te evalueren, terwijl reinforcement learning het model helpt zichzelf te sturen. Distillatie maakte het mogelijk een kleiner model te ontwikkelen, met een fractie van de ruim zeshonderd miljard parameters van grotere taalmodellen.

Het onderzoek van Talos en de Universiteit van Pennsylvania onderstreept de noodzaak van strenge veiligheidsevaluaties bij de ontwikkeling van artificiële intelligentie, zodat de doorbraken in efficiëntie niet ten koste gaan van de veiligheid. Ook bevestigt het dat bedrijven best vangrails van derde partijen gebruiken die de betrouwbaarheid en bescherming van AI-toepassingen verhogen.

Dit artikel is een ingezonden bericht en valt buiten de verantwoordelijkheid van onze redactie.

Redactie
Redactiehttps://www.kantoor.nl
Artikelen geschreven door de redactie van Kantoor.nl. Alles op het gebied van Marketing, Sales, AI, online business, media, technologie en e-commerce. Heb je nieuws? Mail ons: redactie@kantoor.nl.
Nieuwsbrief:

Op de hoogte blijven van het laatste nieuws op Kantoor? Schrijf je dan nu in voor de nieuwsbrief.

Contact formulier Fluent-CRM [fluentform id="11"]

Laatste nieuws:

spot_img

- Never miss a story with notifications

- Gain full access to our premium content

- Browse free from up to 5 devices at once

Laatste nieuws:

spot_img

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.