Názory k článku Jak jsme se pomocí strojového učení a cloudu za pár korun učili rozpoznávat spam

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

17. 8. 2018 16:48

milan (neregistrovaný)

no vzhledem k tomu, ze jen posledni mesic se Gmailu podarilo nahazet do spamu
- potvrzovaci emaily od booking.com (byl jsem na dovolene a ubytovani si rezervuju po ceste)
- potvrzeni letenky na sluzebni cestu (daval jsem si kopii na soukromy email)
- vyber kurzu z LinkedIn Learning
- potvrzeni z eshopu o odeslani zasilky
tak bych si dovilit tvrdit, ze to taky neni zadna slava a ze bych radsi par spamu do schranky nez tohle hledat ve spamu, tim me gmail dost se... stve.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 8. 2018 0:48

pp (neregistrovaný)

Psát to potřetí je moc práce.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 22:57

BobTheBuilder

Tak nevím, když si otevřu spam složku (kde se po 30 dnech maže automaticky), tak na první pohled vidím relevantní odesílatele+předmět, v případě pochybnosti si jednotky kusů otevřu.
Problém je, že občas se něco rozbije i někomu, s kým komunikovat musíte, případně to má rozbité a když ho upozorníte, tak vám odpoví ve stylu: my s tím nic dělat nebudeme, my jsme Ericsson* a vy si zajistěte, že naše maily nezahodíte.
No a pak je otázka, zda a) vy chcete dělat kšeft s Ericssonem nebo b) Ericsson s vámi. A ano, a) je správná odpověď.
* to bylo tak asi před 15 lety, dnes už mají možná DNS dobře nakonfigurovaný, za tu dobu to i tak velká firma může dokázat
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 19:48

Bez přezdívky

"U spamfiltru je nesmírně důležité, aby měl co nejmenší (ideálně nulový) výskyt takzvaných false positives, tedy výsledků, kdy jsou e-maily chybně označeny jako spam."

Mám pocit že tohle je bohužel nad síly koncového antispamu.
Nejčastěji se potýkám s rozbitým DKIM u odesilatele a DNS politikou ty maily zahazovat... případně zapomenutým SPF při změně mailserveru.
Nebo se sepne FuzzyOcr filter, protože v obrázku (screenshotu z Excelu) najde nějaká slova která jsou na blacklistu (třeba sales, stock..)
Případně se odesilatel dostane dočasně chybně do nějakého SBL seznamu.

Podobné věci asi může dobře řešit jen masivní služba typu Gmail/Hotmail, kde jsou schopni automaticky určovat reputace každého odesilatele na základě toho zda si uživatel mail přečte/smaže či odpoví
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 19:37

ppp (neregistrovaný)

'A take jsem nikde nenapsal, ze by nevznikaly ty tzv "false positive", jen tvrdim, ze nevzniknou ze zadneho pricetneho mailu.'

A já znovu zopakuji tu samou otázku: jak to víte? Zahazování exe příloh okej, a dál?

"Nikoli, vy jenom naprosto nezvladate tu primitivni vetu precist."
Ne. Uníká vám kontext. Já se ptám, jak víte, že příčetné emaily nekončí ve spamu. Bob říká, že standardní způsob, jak ověřit, kolik legitimní pošty padá do spamu, je prostě se prohrabat spamkošem. A já mu odpovídám, že to v tomhle případě není reálné, protože uživatelům toho spamu chodí prostě příliš a proto člověk false positives ve spamkoši nedohledá.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 8:46

fd (neregistrovaný)

Nikoli, vy jenom naprosto nezvladate tu primitivni vetu precist.

Tato situace existuje pred zavedenim (rozumneho) filtrovani spamu. Takze se rozhodne nikdo neprohrabava slozkami spam, do kterych se v mem pripade dorucuji jednotky kusu. Zbytek se zahazuje ci vubec neprijima na serveru.

A take jsem nikde nenapsal, ze by nevznikaly ty tzv "false positive", jen tvrdim, ze nevzniknou ze zadneho pricetneho mailu. Pokud nekdo posle mail zcela nepricetny, tak presto ze to "spam" neni, bude zahozen, a to zcela popravu.

K jiz zminenym mohu prihodit mensi storm vsemoznych exe/java/... a dalsich priloh, jenz jsem zaznamenal poslednich par dnu. Takove maily skonci ve stoupe i v pripade, ze by je posilal obchodni partner z overeneho MTA.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 8:36

fd (neregistrovaný)

Vy sai vubec netusite jak GDPR fuguje ze? Ty "vase zaznamy" vam jsou dost k nicemu pokud nejste schopen dolozit, ze mate od dotycneho souhlas. A na to vam nejaky zaznam v databazi rozhodne stacit nebude, zato samo vyjadreni dotycneho ze vam nikdy souhlas nedal staci na udeleni pokuty.

Navic v pripade ze by se GDPR resilo, tak se zaroven zcela jiste zjisti, ze dotycny neni jediny ktereho obtezujete spamem a jehoz udaje nezakonne skladujete.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 8. 2018 7:54

BobTheBuilder

No, to budou tvrdit, ale když ignorují odhlášení, nebo pokus vede na něco nefunkčního, tak taková stížnost bude účinná.
Je možné, že vás někdo přihlásí takřka legitimně, ačkoliv o tom nevíte - když při přihlášení neověřuje e-mail. Takto jsem dostal výpis z banky (k cizímu účtu), potvrzení objednávky taxi v městě, kde jsem 30 let nebyl a ještě pár dalších věcí podobného charakteru. Zřejmě má někdo o Googlu podobný mail, doplněný číslicí nebo něčím, na což zapomene.
A sám jsem podobnou věc způsobil, když jsem z nepozornosti uvedl podobně špatně mail svého syna na zasílání přehledů z firemní mobilní sítě - pochopitelně se majitel ozval.
Tohle jsou jasné omyly a obvykle můžete kontaktovat odesílatele, že to je chyba.
Když ovšem pro newsletter použijí neověřenou adresu, je to jiná situace, i když i tady je možnost, že na počátku je omyl uživatele a ne zlý úmysl zesílatele. Takže poprvé to stačí slušně - nejsem si vědom, že bych si tohle přihlásil a rozhodně nemám zájem..., vyhrožovat má smysl až potom, když tohle nepomůže.
Ta metoda se nazývá ZSA: zdvořile - sprostě - advokát.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 8. 2018 22:57

ppp (neregistrovaný)

BobTheBuilder:
Reaguji na příspěvek, kde se jasně píše
"Zato resim pomerne casto situaci, kdy pro hromady dorucenych spamu nejsou korekni maily k nalezeni. Co vic, jiz jsem videl i situaci, kdy prave dorucovani spamu spotrebovalo 80+% vykonu HW a dotycni zamestnanci travili 1/3 pracovni smeny prave odmazavanim doruceneho spamu."

To znamená, že zběžná kontrola spamboxu opravdu nestačila na ověření, že tam žádné false positives nejsou.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 8. 2018 21:27

Danarr (neregistrovaný)

Zmiňovat se o GDPR je blbost. A obecně na tohle existuje jednoduchá odpověď
"Podle našich záznamů došlo k přihlášení k odběru toho a toho dne z webové stránky. Nemůžeme dokázat, že to byl majitel schránky? Pardon, budeme logovat IP" A v db se vloží nějaká dummy IP od UPC

Je to koneckonců realistcký scénář. Hromadná registrace do newsletteru je mírná forma elektronického obtěžování.
A jako třešnička - teoreticky tam nemusí být ani zlý úmysl - v naší firmě se nezřídka stává, že zákazník zadá špatně e-mail (a jelikož mu tam chodí faktury které musí hradit tak to nebude naschvál) a pak se pracně shání ten správný kontakt.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 8. 2018 17:46

BobTheBuilder

Vy si nekontrolujete (alespoň zběžně) schránku, kam padají spamy? To je dost nerozumné, bez ohledu na to, kde svůj mail máte.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 8. 2018 10:53

Torquemada666

Kdyz ignoruji online odhlaseni, tak to chce napsat mail primo na jejich podporu, dokonce casto ani neni nutno se zminovat o GDPR (ale patrne to neuskodi) :-)
Alespon me to nedavno pomohlo, kdyz jsem obdrzel newsletter z nejmenovane banky, kde odkaz na odhlaseni byl chytre nasmerovan na onen zaslany mail
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 8. 2018 10:45

pehu (neregistrovaný)

Pokoušel jsem se několikrát odhlásit nevyžádaný newsletter od pilulka.cz a chodí to vesele dál. Před pár dny mě toho svinstva do spamu přisálo 6 kousků během jednoho dne. Ještě chvilku je nechám a až mne fakt namíchnou, tak ty spamerské šmejdy udám !

Redakce, vám už asi z toho horka hrabe !
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 21:29

ppp (neregistrovaný)

"Za ty roky se mi jeste nestalo, ze by do spamu spadl jakykoli alespon prumerne pricetny mail,"

Jak to víte?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 18:58

fd (neregistrovaný)

Myslite kupriklad takto? viagrа ?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 18:56

fd (neregistrovaný)

Na takove veci ovsem staci script a i386.

A kdyz uz na to reaguji:
U spamfiltru je nesmírně důležité, aby měl co nejmenší (ideálně nulový) výskyt takzvaných false positives, tedy výsledků, kdy jsou e-maily chybně označeny jako spam.

To je pomerne nepodstatny parametr, protoze email vam muze nedorazit z asi miliardy ruznych duvodu, takze jestli na tu hromadku prihodite jeden = vas spam filtr, je to naprosty detail. Za ty roky se mi jeste nestalo, ze by do spamu spadl jakykoli alespon prumerne pricetny mail, ale pokud ma nekdo pocit, ze naprosto nezbytne musi maly posilat s MS formatovanim, bez textu, s podpisem o velikosti 1/2M a vlozenymi obrazky, vadnym charsetem, pricemz si jako bonus neumi nastavit dns, pak budiz /dev/null lehky jeho mailum.

Zato resim pomerne casto situaci, kdy pro hromady dorucenych spamu nejsou korekni maily k nalezeni. Co vic, jiz jsem videl i situaci, kdy prave dorucovani spamu spotrebovalo 80+% vykonu HW a dotycni zamestnanci travili 1/3 pracovni smeny prave odmazavanim doruceneho spamu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 18:55

--- (neregistrovaný)

I u newsletterů, ke kterým jsi nikdy nedal souhlas?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 18:09

mk (neregistrovaný)

Posledniho cca pul roku newslettery odhlasuju a zatim to funguje bez chyby.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 12:59

ppp (neregistrovaný)

Ten blacklist jsem myslel taky jako otázku na to, podle čeho se ten systém nakonec rozhoduje. (Kolik % výkonu je filtr adres.) Je fajn, že už jste to používali. :-)

No, ono to není něco co by bylo vzdálené od reality. Takovýhle systém by se neměl rozhodovat podle "divných" kritérií.
Do vaší situace úplně nevidím, tak si některé věci musím domýšlet a hádat, ale počítám, že zákazníkům tam chodí i nabídky dlouhodobé spolupráce, ale že jich bude ve vybraných datech strašně málo. A i přesto chcete, aby se na nich systém choval rozumně.
Tohle může být jeden z důvodů, proč zkoumat, zda např. přítomnost jednoho, dvou slov, která by neměla být typická pro spam (na rozdíl o slova vXiXaXgXrXa), nebude automaticky znamenat, že email spadne do spamu.

Mimochodem, v okamžiku, kdy jsem nevykřížkoval slovo vXiXaXgXrXa, tak mi lupa.cz zobrazila zprávu
"Váš názor byl vyhodnocen jak spam (v textu byla použita zakázaná slova) a nebude přijat. Pokud se domníváte, že zadáváte regulérní názor, pošlete nám ho prosím e-mailem do redakce na adresu redakce (zavináč) lupa (tečka) cz"

Přesně takhle by ten antispam v emailu fungovat neměl.. :D :D :D
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 12:22

Mário Roženský (SupportBox.cz) (neregistrovaný)

Děkuji za super podněty.

S tím expertem rozhodně souhlasím. Určitě by to dokázal dotáhnout ještě mnohem dále a vylepšit. To ale nebylo cílem. Cílem bylo za minimální úsilí usnadnit našim zákazníkům práci => tedy snížit množství spamu. Takže určitě to jde udělat ještě násobně lépe, ale za daný čas a úsilí jsme velmi spokojení.

Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
=> Jasně, chodí stejný na řadu adres. Snažili jsme se to aspoň trošku vyloučit.

Jak moc to funguje jako blacklist emailových adres?
=> Vůbec. Black a White list je dělaný separátně. Ten vzniká postupně už pár let, jak monitorujeme, co zákazníci reportují atd.

Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?
=> Vzorek byl cca 50/50, trénováno na sadách 1000, 6000, 10000 dat. Čemu přikládá, či nepřikládá význam netuším. To by bylo právě to téma na toho experta, který by nad tím teď seděl a hloubal a model posouval dále. Ale bude to mít dostatečný význam i pro naše klienty? :)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 11:48

ppp (neregistrovaný)

Hezký článek, jenom bych upozornil, že dřívější nejistota výsledku nebyla ani tak o tom, že by tehdejší experti neznali techniky, které zná amazon, nebo je nebyli schopni použít. Byla spíš tom, že celkový výsledek prostě nemusel dávat smysl.
On ten expert totiž tráví čas tím, aby zkoumal, co ten jeho model dělá, a co má vlastně za data.

Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
Jak moc to funguje jako blacklist emailových adres?
Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?

Expert tam je potřeba i proto, aby vám řekl, že něco není dobrý nápad. Je otázka, zda zákazník raději přečte hromadu spamu, nebo občas přijde o nějakého zajímavého zákazníka.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 11:23

Mário Roženský (SupportBox.cz) (neregistrovaný)

Dobrý den, Martine,

ono to je ještě mnohem složitější. Pracovníci na podpoře to ani jako spam neoznačují, ale háží zprávy do koše, nebo je označují, jako vyřešené (to je složka, kam padají všechny zprávy, na které pracovníci odpověděli a které nevyžadují další reakci).

A problém to vůbec není, protože to opravdu obrázkový spam od newsletteru rozezná skvěle. Newsletter obsahuje hromadu textu okolo, třeba patičku s kontakty, ceny atd. To obrázkový spam neobsahuje.

Takže toto to zrovna řeší ;-)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 11:22

P (neregistrovaný)

To je správně. Když si odhlásím newsletter ke kterému jsem se nepřihlásil, jen někoho upozorním, že ten mailbox čtu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 8. 2018 8:20

Martin (neregistrovaný)

Tohle nemůže fungovat, uživatelé totiž málokdy odhlásí newsletter, radši zmáčknou SPAM.

Takže identifikace musí být per user
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Aktuality

Personální změny v majiteli Rádia Blaník. Skupina Media Bohemia má nového ředitele

Ministr kultury nesouhlasí s evidencí youtuberů

Dražby budov z majetku Jaromíra Soukupa se zúčastní i magistrát

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Názory k článku Jak jsme se pomocí strojového učení a cloudu za pár korun učili rozpoznávat spam

Aktuality

Personální změny v majiteli Rádia Blaník. Skupina Media Bohemia má nového ředitele

Ministr kultury nesouhlasí s evidencí youtuberů

Dražby budov z majetku Jaromíra Soukupa se zúčastní i magistrát

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

World of Warcraft slaví 20 let a stále se hraje

Lumbální punkce sice vypadá děsivě, ale nebolí

Lékárníci v karavanu anonymně změří cholesterol i cukr v krvi

Správná péče o bércové vředy může zabránit zanícení

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

V obchodech je máslo s obsahem tuku jen 61 %. Rarita, ale povolená

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Chrome OS se zřejmě promění v Android

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Přílišné uklízení škodí plicím stejně jako cigarety

Města ve Středočeském kraji mění koeficienty k dani z nemovitostí

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Oznámení o osvobozených příjmech: shrnutí povinností

Svařák bez alkoholu je skvělá varianta pro těhotné či abstinenty

Co dělat, když vám zavřou dodavatele IT služeb?

SSD už také mají obrovskou kapacitu – až 122 TB

Potíže, které dříve znamenaly neplodnost, umí lékaři vyřešit

„Nemáme na tom zájem“. Opozice brzdí TV poplatky