OpenAI és Paradigm bemutatta az EVMbench-et: új korszak jöhet az Ethereum smart contract biztonságában
Az OpenAI és a Paradigm ezen a héten jelentette be az EVMbench elindítását, amely kifejezetten az Ethereum-alapú okosszerződések (smart contract) biztonsági tesztelésére készült. A benchmark célja annak mérése, hogy a mesterséges intelligenciával működő ügynökök (AI agents) milyen hatékonysággal képesek:
- sebezhetőségeket azonosítani (detect),
- hibákat javítani (patch),
- illetve kihasználni (exploit) a kontraktusok gyengeségeit.
A kezdeményezés különösen időszerű, hiszen az EVM-alapú (Ethereum Virtual Machine) hálózatokon futó smart contractok jelenleg több mint 100 milliárd dollár értékű digitális eszközt védenek.
Valós audit-hibákból épített adatbázis
Az EVMbench nem mesterségesen generált példákra, hanem valós, szakmai auditok során feltárt hibákra épül. Az OpenAI tájékoztatása szerint az adatbázis 120 magas súlyosságú (high-severity) sebezhetőséget tartalmaz, amelyeket 40 különböző professzionális smart contract audit során azonosítottak.
Számos hiba nyílt auditversenyekből származik, köztük a Code4rena által szervezett programokból. Ez azért különösen fontos, mert a benchmark nem laboratóriumi környezetben kitalált, hanem valós körülmények között előfordult hibákat vizsgál.
Az adatcsomag emellett tartalmaz a Tempo chainhez kapcsolódó biztonsági eseteket is. A Tempo egy fizetési fókuszú Layer-1 hálózat, amelyet kifejezetten stablecoin-átutalásokra optimalizáltak. Az itt feltárt problémák a fizetési logika (payment logic) kockázatait is beemelik a tesztkörnyezetbe, ami tovább növeli a benchmark relevanciáját.
A fejlesztők, ahol elérhető volt, újrahasznosították a korábbi proof-of-concept exploit szkripteket. Amennyiben a dokumentáció hiányos volt, manuálisan építették újra a szükséges komponenseket. A cél az volt, hogy a sebezhetőségek valóban kihasználhatók maradjanak, miközben a javítások (patch-ek) technikailag helyesen forduljanak és működjenek.
Három tesztmód: detect, patch, exploit
Az EVMbench három különböző üzemmódban méri az AI-ügynökök teljesítményét:
Detect mód – sebezhetőség-felismerés
Ebben a módban az AI-ügynökök teljes kódtárakat (repository) vizsgálnak át, és az azonosított hibák visszahívási aránya (recall) alapján kapnak pontszámot. A cél annak mérése, hogy az algoritmus mennyire képes a valós biztonsági problémák felismerésére.
Patch mód – hibajavítás
Itt az AI feladata nem csupán a hiba azonosítása, hanem annak kijavítása úgy, hogy a smart contract eredeti funkcionalitása sértetlen maradjon. Ez különösen összetett feladat, mivel egy rosszul implementált javítás új sebezhetőségeket is generálhat.
Exploit mód – teljes támadási szimuláció
A legösszetettebb teszt az exploit mód, amely egy sandboxolt blokklánc-környezetben szimulál teljes, forráskivonásos (fund-draining) támadásokat. Az OpenAI szerint az értékelők tranzakció-visszajátszással (transaction replay) és on-chain állapotellenőrzéssel validálják az eredményeket.
A determinisztikus működés érdekében a cég egy Rust-alapú tesztkörnyezetet (harness) fejlesztett, amely biztosítja az egységes deploy-folyamatot. Az exploit-tesztek egy lokális Anvil környezetben futnak, nem élő hálózaton. A vállalat hangsúlyozta: minden vizsgált sebezhetőség történeti és nyilvánosan közzétett. Emellett a rendszer korlátozza a nem biztonságos RPC-hívásokat, csökkentve az esetleges visszaélések kockázatát.
GPT-5.3-Codex látványos előrelépése
A publikált eredmények szerint a GPT-5.3-Codex exploit módban 72,2%-os teljesítményt ért el. Összehasonlításképpen: a korábban bemutatott GPT-5 mindössze 31,9%-os eredményt produkált ugyanezen mérésben.
Ez a jelentős javulás arra utal, hogy a kódértelmezésre és -generálásra optimalizált modellek drámai fejlődésen mentek keresztül rövid idő alatt. Ugyanakkor az OpenAI elismerte, hogy a detektálási és javítási lefedettség (coverage) még nem teljes, vagyis a rendszer további fejlesztésre szorul.
Stratégiai erősítés: új vezető az agent-fejlesztés élén
Az EVMbench bejelentésével párhuzamosan az OpenAI egy fontos személyi döntést is közölt. A vállalathoz csatlakozott Peter Steinberger, az OpenClaw alapítója, aki az AI-ügynökök fejlesztésén dolgozik majd.
Sam Altman az X platformon erősítette meg a hírt, kiemelve, hogy Steinberger a következő generációs személyes AI-ügynök projektek vezetéséért felel majd.
Több mint benchmark: új biztonsági standard születhet
Az EVMbench túlmutat egy egyszerű technológiai mérőszámon. A kezdeményezés azt jelzi, hogy a mesterséges intelligencia egyre nagyobb szerepet kaphat a decentralizált pénzügyi (DeFi) infrastruktúra védelmében.
Mivel az Ethereum-alapú ökoszisztéma kulcsszerepet játszik a globális kriptopiac működésében, az AI-alapú auditálás és exploit-szimuláció a jövőben akár iparági standarddá is válhat. A kérdés már nem az, hogy az AI képes-e felismerni a hibákat, hanem az, hogy milyen gyorsan és milyen pontossággal tudja megelőzni a több millió dolláros hackeket.
Az OpenAI és a Paradigm együttműködése egyértelmű üzenet a piac számára: a smart contract biztonság következő szintje az AI-vezérelt automatizált tesztelés lehet.