Skupina výzkumníků z Princetonské univerzity uvádí, že dokáží se slušnou pravděpodobností určit autora programu – a to nejen na základě zdrojového kódu, ale i zkompilované binární podoby.
Schopnosti nového algoritmu, který využívá strojového učení, byly otestovány na kolekci programů z Google Code Jam 2008-2014. Systém pracuje se slušnou pravděpodobností údajně i v případě, že je k dispozici málo vzorků. Tak například algoritmus dostane 20 vzorků od 20 programátorů a 1 neznámý vzorek jednoho z nich. Přiřazení je správné asi v 75 % případů. Je-li od každého programátora k dispozici 14 vzorků kódu (tj. 280 celkem), odpovídající úspěšnost rozpoznání stoupne na 96 %.
Základní metodou algoritmu jsou přirozeně různé metody reverzního inženýrství. Výzkumníci zkoušeli svůj systém také na kódech v rámci GitHub; u open source projektů je to samozřejmě s autorstvím kódu složitější, nicméně tyto podmínky odpovídají většině reálných situací lépe než přesně onálepkovaný soubor kódů z jediné akce. Nicméně nový algoritmus prý byl i tak celkem v souladu s tím, co tvrdili o programech ti, kdo je na GitHubu publikovali.
Zjišťování se týká programů, jejichž autoři se nijak nepokoušeli skrývat. Například sofistikovanější tvůrci škodlivých kódů samozřejmě používají různé antiforenzní techniky.
Komentáře
Napsat vlastní komentář
Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.