Scienceworld | Autora programu lze odhalit i bez zdrojového kódu

Schopnosti nového algoritmu, který využívá strojového učení, byly otestovány na kolekci programů z Google Code Jam 2008-2014. Systém pracuje se slušnou pravděpodobností údajně i v případě, že je k dispozici málo vzorků. Tak například algoritmus dostane 20 vzorků od 20 programátorů a 1 neznámý vzorek jednoho z nich. Přiřazení je správné asi v 75 % případů. Je-li od každého programátora k dispozici 14 vzorků kódu (tj. 280 celkem), odpovídající úspěšnost rozpoznání stoupne na 96 %.
Základní metodou algoritmu jsou přirozeně různé metody reverzního inženýrství. Výzkumníci zkoušeli svůj systém také na kódech v rámci GitHub; u open source projektů je to samozřejmě s autorstvím kódu složitější, nicméně tyto podmínky odpovídají většině reálných situací lépe než přesně onálepkovaný soubor kódů z jediné akce. Nicméně nový algoritmus prý byl i tak celkem v souladu s tím, co tvrdili o programech ti, kdo je na GitHubu publikovali.
Zjišťování se týká programů, jejichž autoři se nijak nepokoušeli skrývat. Například sofistikovanější tvůrci škodlivých kódů samozřejmě používají různé antiforenzní techniky.

autor Pavel Houser