Ten blacklist jsem myslel taky jako otázku na to, podle čeho se ten systém nakonec rozhoduje. (Kolik % výkonu je filtr adres.) Je fajn, že už jste to používali. :-)
No, ono to není něco co by bylo vzdálené od reality. Takovýhle systém by se neměl rozhodovat podle "divných" kritérií.
Do vaší situace úplně nevidím, tak si některé věci musím domýšlet a hádat, ale počítám, že zákazníkům tam chodí i nabídky dlouhodobé spolupráce, ale že jich bude ve vybraných datech strašně málo. A i přesto chcete, aby se na nich systém choval rozumně.
Tohle může být jeden z důvodů, proč zkoumat, zda např. přítomnost jednoho, dvou slov, která by neměla být typická pro spam (na rozdíl o slova vXiXaXgXrXa), nebude automaticky znamenat, že email spadne do spamu.
Mimochodem, v okamžiku, kdy jsem nevykřížkoval slovo vXiXaXgXrXa, tak mi lupa.cz zobrazila zprávu
"Váš názor byl vyhodnocen jak spam (v textu byla použita zakázaná slova) a nebude přijat. Pokud se domníváte, že zadáváte regulérní názor, pošlete nám ho prosím e-mailem do redakce na adresu redakce (zavináč) lupa (tečka) cz"
Přesně takhle by ten antispam v emailu fungovat neměl.. :D :D :D
Dobrý den, Martine,
ono to je ještě mnohem složitější. Pracovníci na podpoře to ani jako spam neoznačují, ale háží zprávy do koše, nebo je označují, jako vyřešené (to je složka, kam padají všechny zprávy, na které pracovníci odpověděli a které nevyžadují další reakci).
A problém to vůbec není, protože to opravdu obrázkový spam od newsletteru rozezná skvěle. Newsletter obsahuje hromadu textu okolo, třeba patičku s kontakty, ceny atd. To obrázkový spam neobsahuje.
Takže toto to zrovna řeší ;-)
Hezký článek, jenom bych upozornil, že dřívější nejistota výsledku nebyla ani tak o tom, že by tehdejší experti neznali techniky, které zná amazon, nebo je nebyli schopni použít. Byla spíš tom, že celkový výsledek prostě nemusel dávat smysl.
On ten expert totiž tráví čas tím, aby zkoumal, co ten jeho model dělá, a co má vlastně za data.
Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
Jak moc to funguje jako blacklist emailových adres?
Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?
Expert tam je potřeba i proto, aby vám řekl, že něco není dobrý nápad. Je otázka, zda zákazník raději přečte hromadu spamu, nebo občas přijde o nějakého zajímavého zákazníka.
Děkuji za super podněty.
S tím expertem rozhodně souhlasím. Určitě by to dokázal dotáhnout ještě mnohem dále a vylepšit. To ale nebylo cílem. Cílem bylo za minimální úsilí usnadnit našim zákazníkům práci => tedy snížit množství spamu. Takže určitě to jde udělat ještě násobně lépe, ale za daný čas a úsilí jsme velmi spokojení.
Nechodí vám tam nějaký spam 30x? Pak by byl zároveň v trénovací a testovacích sadách.
=> Jasně, chodí stejný na řadu adres. Snažili jsme se to aspoň trošku vyloučit.
Jak moc to funguje jako blacklist emailových adres?
=> Vůbec. Black a White list je dělaný separátně. Ten vzniká postupně už pár let, jak monitorujeme, co zákazníci reportují atd.
Kolík máte spamových emailů? Nepřikládá to až příliš velký význam (ne)přítomnosti jednotek slov?
=> Vzorek byl cca 50/50, trénováno na sadách 1000, 6000, 10000 dat. Čemu přikládá, či nepřikládá význam netuším. To by bylo právě to téma na toho experta, který by nad tím teď seděl a hloubal a model posouval dále. Ale bude to mít dostatečný význam i pro naše klienty? :)
Kdyz ignoruji online odhlaseni, tak to chce napsat mail primo na jejich podporu, dokonce casto ani neni nutno se zminovat o GDPR (ale patrne to neuskodi) :-)
Alespon me to nedavno pomohlo, kdyz jsem obdrzel newsletter z nejmenovane banky, kde odkaz na odhlaseni byl chytre nasmerovan na onen zaslany mail
No, to budou tvrdit, ale když ignorují odhlášení, nebo pokus vede na něco nefunkčního, tak taková stížnost bude účinná.
Je možné, že vás někdo přihlásí takřka legitimně, ačkoliv o tom nevíte - když při přihlášení neověřuje e-mail. Takto jsem dostal výpis z banky (k cizímu účtu), potvrzení objednávky taxi v městě, kde jsem 30 let nebyl a ještě pár dalších věcí podobného charakteru. Zřejmě má někdo o Googlu podobný mail, doplněný číslicí nebo něčím, na což zapomene.
A sám jsem podobnou věc způsobil, když jsem z nepozornosti uvedl podobně špatně mail svého syna na zasílání přehledů z firemní mobilní sítě - pochopitelně se majitel ozval.
Tohle jsou jasné omyly a obvykle můžete kontaktovat odesílatele, že to je chyba.
Když ovšem pro newsletter použijí neověřenou adresu, je to jiná situace, i když i tady je možnost, že na počátku je omyl uživatele a ne zlý úmysl zesílatele. Takže poprvé to stačí slušně - nejsem si vědom, že bych si tohle přihlásil a rozhodně nemám zájem..., vyhrožovat má smysl až potom, když tohle nepomůže.
Ta metoda se nazývá ZSA: zdvořile - sprostě - advokát.
Tak nevím, když si otevřu spam složku (kde se po 30 dnech maže automaticky), tak na první pohled vidím relevantní odesílatele+předmět, v případě pochybnosti si jednotky kusů otevřu.
Problém je, že občas se něco rozbije i někomu, s kým komunikovat musíte, případně to má rozbité a když ho upozorníte, tak vám odpoví ve stylu: my s tím nic dělat nebudeme, my jsme Ericsson* a vy si zajistěte, že naše maily nezahodíte.
No a pak je otázka, zda a) vy chcete dělat kšeft s Ericssonem nebo b) Ericsson s vámi. A ano, a) je správná odpověď.
* to bylo tak asi před 15 lety, dnes už mají možná DNS dobře nakonfigurovaný, za tu dobu to i tak velká firma může dokázat
Pokoušel jsem se několikrát odhlásit nevyžádaný newsletter od pilulka.cz a chodí to vesele dál. Před pár dny mě toho svinstva do spamu přisálo 6 kousků během jednoho dne. Ještě chvilku je nechám a až mne fakt namíchnou, tak ty spamerské šmejdy udám !
Redakce, vám už asi z toho horka hrabe !
Zmiňovat se o GDPR je blbost. A obecně na tohle existuje jednoduchá odpověď
"Podle našich záznamů došlo k přihlášení k odběru toho a toho dne z webové stránky. Nemůžeme dokázat, že to byl majitel schránky? Pardon, budeme logovat IP" A v db se vloží nějaká dummy IP od UPC
Je to koneckonců realistcký scénář. Hromadná registrace do newsletteru je mírná forma elektronického obtěžování.
A jako třešnička - teoreticky tam nemusí být ani zlý úmysl - v naší firmě se nezřídka stává, že zákazník zadá špatně e-mail (a jelikož mu tam chodí faktury které musí hradit tak to nebude naschvál) a pak se pracně shání ten správný kontakt.
BobTheBuilder:
Reaguji na příspěvek, kde se jasně píše
"Zato resim pomerne casto situaci, kdy pro hromady dorucenych spamu nejsou korekni maily k nalezeni. Co vic, jiz jsem videl i situaci, kdy prave dorucovani spamu spotrebovalo 80+% vykonu HW a dotycni zamestnanci travili 1/3 pracovni smeny prave odmazavanim doruceneho spamu."
To znamená, že zběžná kontrola spamboxu opravdu nestačila na ověření, že tam žádné false positives nejsou.
Vy sai vubec netusite jak GDPR fuguje ze? Ty "vase zaznamy" vam jsou dost k nicemu pokud nejste schopen dolozit, ze mate od dotycneho souhlas. A na to vam nejaky zaznam v databazi rozhodne stacit nebude, zato samo vyjadreni dotycneho ze vam nikdy souhlas nedal staci na udeleni pokuty.
Navic v pripade ze by se GDPR resilo, tak se zaroven zcela jiste zjisti, ze dotycny neni jediny ktereho obtezujete spamem a jehoz udaje nezakonne skladujete.
no vzhledem k tomu, ze jen posledni mesic se Gmailu podarilo nahazet do spamu
- potvrzovaci emaily od booking.com (byl jsem na dovolene a ubytovani si rezervuju po ceste)
- potvrzeni letenky na sluzebni cestu (daval jsem si kopii na soukromy email)
- vyber kurzu z LinkedIn Learning
- potvrzeni z eshopu o odeslani zasilky
tak bych si dovilit tvrdit, ze to taky neni zadna slava a ze bych radsi par spamu do schranky nez tohle hledat ve spamu, tim me gmail dost se... stve.
'A take jsem nikde nenapsal, ze by nevznikaly ty tzv "false positive", jen tvrdim, ze nevzniknou ze zadneho pricetneho mailu.'
A já znovu zopakuji tu samou otázku: jak to víte? Zahazování exe příloh okej, a dál?
"Nikoli, vy jenom naprosto nezvladate tu primitivni vetu precist."
Ne. Uníká vám kontext. Já se ptám, jak víte, že příčetné emaily nekončí ve spamu. Bob říká, že standardní způsob, jak ověřit, kolik legitimní pošty padá do spamu, je prostě se prohrabat spamkošem. A já mu odpovídám, že to v tomhle případě není reálné, protože uživatelům toho spamu chodí prostě příliš a proto člověk false positives ve spamkoši nedohledá.
"U spamfiltru je nesmírně důležité, aby měl co nejmenší (ideálně nulový) výskyt takzvaných false positives, tedy výsledků, kdy jsou e-maily chybně označeny jako spam."
Mám pocit že tohle je bohužel nad síly koncového antispamu.
Nejčastěji se potýkám s rozbitým DKIM u odesilatele a DNS politikou ty maily zahazovat... případně zapomenutým SPF při změně mailserveru.
Nebo se sepne FuzzyOcr filter, protože v obrázku (screenshotu z Excelu) najde nějaká slova která jsou na blacklistu (třeba sales, stock..)
Případně se odesilatel dostane dočasně chybně do nějakého SBL seznamu.
Podobné věci asi může dobře řešit jen masivní služba typu Gmail/Hotmail, kde jsou schopni automaticky určovat reputace každého odesilatele na základě toho zda si uživatel mail přečte/smaže či odpoví
Nikoli, vy jenom naprosto nezvladate tu primitivni vetu precist.
Tato situace existuje pred zavedenim (rozumneho) filtrovani spamu. Takze se rozhodne nikdo neprohrabava slozkami spam, do kterych se v mem pripade dorucuji jednotky kusu. Zbytek se zahazuje ci vubec neprijima na serveru.
A take jsem nikde nenapsal, ze by nevznikaly ty tzv "false positive", jen tvrdim, ze nevzniknou ze zadneho pricetneho mailu. Pokud nekdo posle mail zcela nepricetny, tak presto ze to "spam" neni, bude zahozen, a to zcela popravu.
K jiz zminenym mohu prihodit mensi storm vsemoznych exe/java/... a dalsich priloh, jenz jsem zaznamenal poslednich par dnu. Takove maily skonci ve stoupe i v pripade, ze by je posilal obchodni partner z overeneho MTA.
Na takove veci ovsem staci script a i386.
A kdyz uz na to reaguji:
U spamfiltru je nesmírně důležité, aby měl co nejmenší (ideálně nulový) výskyt takzvaných false positives, tedy výsledků, kdy jsou e-maily chybně označeny jako spam.
To je pomerne nepodstatny parametr, protoze email vam muze nedorazit z asi miliardy ruznych duvodu, takze jestli na tu hromadku prihodite jeden = vas spam filtr, je to naprosty detail. Za ty roky se mi jeste nestalo, ze by do spamu spadl jakykoli alespon prumerne pricetny mail, ale pokud ma nekdo pocit, ze naprosto nezbytne musi maly posilat s MS formatovanim, bez textu, s podpisem o velikosti 1/2M a vlozenymi obrazky, vadnym charsetem, pricemz si jako bonus neumi nastavit dns, pak budiz /dev/null lehky jeho mailum.
Zato resim pomerne casto situaci, kdy pro hromady dorucenych spamu nejsou korekni maily k nalezeni. Co vic, jiz jsem videl i situaci, kdy prave dorucovani spamu spotrebovalo 80+% vykonu HW a dotycni zamestnanci travili 1/3 pracovni smeny prave odmazavanim doruceneho spamu.