Analýza hlášení SPAMu od uživatelů

Na adresu spam@vse.cz se posílají dopisy, které uživatelé označí jako spam. Analýzou těchto dopisů lze zjistit, co uživatelé považují za spam a jak se to shoduje se zákonnou definicí nevyžádané pošty.

  1. Souhrnné výsledky analýzy
  2. Skupina NOSPAM
  3. Skupina UNSUBSCRIBE
  4. Skupina SPAM
  5. Má hlášení spamu smysl?

1. Souhrnné výsledky analýzy [menu]

spam1V období od 5. do 14. dubna 2015 odeslalo 64 uživatelů na adresu spam@vse.cz celkem 626 upozornění. 327 dopisů bylo aktuálních – dopisy, které uživatelé dostali v posledních 14 dnech. Zbývajících 243 dopisů bylo starších – někteří uživatelé procházeli a mazali došlou poštu z předchozích měsíců.

Došlé dopisy jsem rozdělil do tří skupin:

  • NOSPAM – dopisy, které nepatří mezi spam; 69 dopisů;
  • UNSUBSCRIBE – dopisy s funkční možností odhlášení; 241 dopisů;
  • SPAM – nevyžádaná pošta; 326 dopisů.

2. Skupina NOSPAM [menu]

Do této skupiny jsem zařadil 69 dopisů. Většina z nich (56) jsou dopisy odeslané z InSIS: dorazilo 24 systémových zpráv (např. otevření odevzdávárny), zpráv od vyučujících pro studenty příslušných předmětů bylo 32. Další 4 dopisy byly odeslané ze školních Office 365.

Vnitroškolní poštu nechceme a nebudeme označovat za SPAM. Uživatelé si v InSIS mohou omezit množství systémových zpráv přes nastavení tzv. hlídacích psů – podrobnosti jsou v dokumentaci k InSIS.

Do skupiny NOSPAM jsem započítal 9 externích dopisů – např. mail s jedinou větou „Děkuji za zprávu“ následovanou podpisem či oznámení o odhlášení z konference.

3. Skupina UNSUBSCRIBE [menu]

Dopisy s funkční možností odhlášení bylo 241. Jednalo se o 51 různých účastí na e-mailových konferencích či distribučních skupinách – uživatelé často označili za spam větší množství dopisů ze stejné e-mailové konference. Odhlašování jsem ověřoval – uživatele jsem odhlásil.

Není jasné, zda se v konkrétních případech jedná o nevyžádanou poštu či obchodní sdělení. Rozhodnutí závisí na tom, jakým způsobem odesílatelé získali e-mailovou adresu příjemce.

Odesílatele lze rozdělit do následujících skupin:

  • firmy zabývající se rozesíláním obchodních sdělení (mailing123.com, mlsend2.com, nlma.info, tomail.cz, …)
  • sociální sítě (facebook, linkedin, quora, …)
  • konference a odborné časopisy – taset.net, world-finance-conference, infoinvestgroup, the-science, cnrs.fr, dmanalytics, ontracktransport, Journal of Liberal Arts and Social Science, SRIC 2014, Research Centre for Energy Management, scholarlinkresearch, …
  • obchody, lifestyle časopisy apod. – aukro, alza, kasa.cz, H&M Fashion News, woman.sk, rohlik.cz, …

Nejčastějším odesílatelem byl taset.net, The Association of Science, Education and Technology, který rozesílá informace o různých konferencích a sbornících na velké množství školních adres. Mám podezření, že cílové adresy získali nelegálně, ale je též možné, že někdo aktivně přihlásil všechny učitele do jejich distribučních seznamů.

Seriózní firmy ve svých obchodních sděleních odkazují na možnost odhlášeníodhlaste se, pokud tyto dopisy nechcete dostávat, a neoznačujte je jako SPAM. A to i v případě, že Vás obtěžují. Mám k tomu tři důvody:

  • nebudete omezovat jiné uživatele, kteří tyto informace chtějí získávat přes mail,
  • snížíte množství přeposílaných a vyřizovaných dopisů,
  • zachováte se odpovědně vůči firmě, která tato sdělení rozesílá.

4. Skupina SPAM [menu]

Mezi nevyžádanou poštu (SPAM) jsem zařadil 326 dopisů. Z nich jsem vyčlenit čtyři větší skupiny spamu:

  • česky či slovensky psaný spam posílaný ze serverů umístěných v Maďarsku na témata: ochrana před potkany, kamery do aut, hadice na zalévání apod. Tyto dopisy by se již od začátku dubna měli označovat jako spam. Spameři do těchto dopisů vkládají nefunkční odkaz na odhlášení z ubytování.
  • jednorázový hromadný mail „Ahoj drahý, jsem Marie …“, text dopisu je na konci příspěvku.
  • jednorázový hromadný spam „Dear Google User, …“ o tom, že příjemce vyhrál něco od Google,
  • maily z on-line časopisů či z konferencí s chybějící či  nefunkční možností odhlášení odběru. V některých případech se uživatelé i kdysi dávno mohli přihlásit k odběru informací. Bez funkční možnosti odhlášení tyto dopisy i naše zákony považují za spam.

5. Má hlášení spamu smysl? [menu]

20. dubna jsem ověřoval, zda centrální mailserver tyto dopisy označí za SPAM, tj. zda se již naučil rozpoznávat tyto dopisy jako SPAM. Výsledky nejsou stoprocentně relevantní – trochu si liší hlavičky dopisy při prvním průchodu a po doručení na adresu spam@vse.cz, mohla se změnit znaková sada apod.

typ SPAMu počet dopisů při doručení
označeno jako SPAM
20. dubna označeno
jako SPAM
Potkani, kamery, hadice, … 71 0 71
Ahoj drahý, jsem Marie … 51 0 0
journals, conferences, … 42 0 7
Dear Google User, … 25 0 0
ostatní 127 23 67

Při doručení se pouze 23 dopisů ze 326 zpráv ve skupině SPAM označilo jako SPAM. Po naučení (tj. po nahlášení uživateli) se jako SPAM označilo 145 zpráv.

Poznámky k výsledkům ověření efektivity učení [menu]

Journals, conferences, … a ostatní SPAM [menu]

Hlavní podíl na lepších výsledcích má posílání nevyžádané pošty na spam@vse.cz a následné automatické učení rozpoznávání spamu na těchto vzorcích.

Spam „Potkani, kamery, hadice, …“. [menu]

Tento spam otravoval uživatele ve škole hlavně posledního půl roku, při zpětné analýze jsem ale našel spam od stejné skupiny již z roku 2013. Dopisy většinou nebyly označovány jako spam a to ani v případě, že se je centrální mailserver naučil pomocí Bayesovských filtrů. Autoři před odesláním nové várky spamu upravují obsah tak, aby se znovu procházel přes různé spam filtry. Servery se též neobjevují na spamových blacklistech. Na konci března jsem napsal místní pravidla, které pomáhají identifikovat a označovat tyto dopisy jako SPAM:

    • schéma generovaných adres odesílatele (neplatí pro slovenskou verzi spamu),
    • IP adresy používané pro odesílání,
    • schéma (nefunkčního) URL pro odhlašování z ubytování

Před zavedením těchto pravidel dopisy obvykle končili se skóre 5 až 6 bodů, nyní se skóre dostává na 8 až 10 bodů, což je nad hranicí 7 bodů.

Spam „Ahoj, drahý, jsem Marie …“ a „Dear Google users …“ [menu]

Centrální mailserver se sice učil, že tyto dopisy jsou nevyžádanou poštou, ale samo o sobě to nestačí k překročení hranice 7 bodů a označování jako SPAM. Bylo by potřeba udělat podrobnější analýzu konkrétních dopisů, ale vzhledem ke krátké době rozesílání se to nestihlo a do budoucna to nemá velký smysl.

Následuje text dopisů obou těchto spamů:

Ahoj, drahý,
  Jsem Marii jsem vid váš profil
a stát se zajímavou prosím, budu rád, kdybyste mkontaktovat
  s mou e-mailovou adresu
  (marieannan02@hotmail.com)
  Povím vám více o soba také
  vám můj obrázek, abyste vi, na koho
i am.i kám na váš mail na mou e-mailové schránky.
  tvůj Marie

Hi dear,
 I am Marie i saw your profile
and become interesting please i will like you to contact me
 with my email address
 (marieannan02@hotmail.com)
 i will tell you more about myself and also
 give you my picture for you to know whom
i am.i am waiting for your mail to my inbox.
 yours Marie

Dear Google User,

You have been selected as a winner for using Google services. Find attached
email with more details.

Congratulations,

Matt Brittin.
CEO Google UK.

(c)2015 Google - Terms & Privacy
  • Autor: Luboš Pavlíček
  • Vytvořeno:
  • Poslední aktualizace: