Czy tylko ja widze te durne reklamy na p.m.e ?

io
Guest

Thu Dec 07, 2023 3:32 pm

W dniu 07.12.2023 o 11:34, Arnold Ziffel pisze:

Quote:

io wrote:

Czyli nie po języku tylko po znakach. Jak to zrobić w czytniku?

Nie wiem. Jakbym miał to zrobić w czytniku, którego używam (tin), to bym
poczytał, a jakbym nic nie wyczytał, to bym edytował źródła (w tinie
filtrowanie jest w pliku src/filter.c, funkcja filter_articles()).

Własny czytniku już mam, ale pytam jak zrobić i czy w ogóle da się w
gotowych, których nie będziemy studiować. Retorycznie pytam, bo było, że
nie ma problemu. Ja myślę, że jest, że w zasadzie tylko po Path można
prosto filtry ustawiać a i one zdaje się będą działały po pobraniu dopiero.

Arnold Ziffel
Guest

Fri Dec 08, 2023 6:08 am

io wrote:

Quote:

Własny czytniku już mam, ale pytam jak zrobić i czy w ogóle da się w
gotowych, których nie będziemy studiować. Retorycznie pytam, bo było, że
nie ma problemu. Ja myślę, że jest, że w zasadzie tylko po Path można
prosto filtry ustawiać a i one zdaje się będą działały po pobraniu dopiero.

Nie wiem. Ja filtruję na serwerze. Jedyny czytnik, który znam na tyle,
żeby móc odpowiedzieć, to ten, którego ja używam -- i wydaje się, że nie
ma tam aż takich możliwości (bez edycji źródeł).

Jeśli ma działać bez pobrania, to musi ciąć po tym, co jest w overview. Na
chmurce są to domyślne nagłówki, ale wśród nich jest też Subject.

$ echo list overview.fmt | nc news.chmurka.net nntp | grep :
Subject:
From:
Date:
Message-ID:
References:
Bytes:
Lines:
Xref:full

--
- Panie doktorze, jestem wykończona. Odkąd mój mąż zachorował, dzień
i noc muszę czuwać przy jego łóżku.
- Przecież przysłałem państwu młodą pielęgniarkę.
- Właśnie dlatego.

1634Racine
Guest

Fri Dec 08, 2023 12:43 pm

Adam Górski w

Quote:

Jak w temacie.
Adam Górski

nie sprawdzalem, ciekawym, czy to cudo moze byc skuteczne w lapaniu spamu
usenetowego...:

https://sourceforge.net/projects/popfile/

(https://www.ispreview.co.uk/talk/threads/usenet-spam.16953/)

io
Guest

Fri Dec 08, 2023 4:21 pm

W dniu 08.12.2023 o 05:08, Arnold Ziffel pisze:

Quote:

io wrote:

Własny czytniku już mam, ale pytam jak zrobić i czy w ogóle da się w
gotowych, których nie będziemy studiować. Retorycznie pytam, bo było, że
nie ma problemu. Ja myślę, że jest, że w zasadzie tylko po Path można
prosto filtry ustawiać a i one zdaje się będą działały po pobraniu dopiero.

Nie wiem. Ja filtruję na serwerze. Jedyny czytnik, który znam na tyle,
żeby móc odpowiedzieć, to ten, którego ja używam -- i wydaje się, że nie
ma tam aż takich możliwości (bez edycji źródeł).

Jeśli ma działać bez pobrania, to musi ciąć po tym, co jest w overview. Na
chmurce są to domyślne nagłówki, ale wśród nich jest też Subject.

$ echo list overview.fmt | nc news.chmurka.net nntp | grep :
Subject:
From:
Date:
Message-ID:
References:
Bytes:
Lines:
Xref:full

No tak, trochę mi się dwa podejścia skleiły, że po Subject jest w
overview ale zakresu liter tak łatwo nie da się wybrać i pozostaje np
filtrowanie googlegroups w Path a wtedy już tego nie ma w overview.

Tak generalnie na tych kilka serwerów, które są w Polsce to dałoby się
je jednak obsłużyć gdyby administratorzy mieli na to czas. Bo wracając,
do artykułu sprzed wielu miesięcy, jednak trzeba trochę czasu poświęcić
na to administrowanie a nie, że "każdy sobie może postawić i nic to nie
kosztuje".

Arnold Ziffel
Guest

Fri Dec 08, 2023 9:45 pm

1634Racine wrote:

Quote:

nie sprawdzalem, ciekawym, czy to cudo moze byc skuteczne w lapaniu spamu
usenetowego...:

Są różne narzędzia, ale w przypadku takich bayesowskich zawsze jest ryzyko
fałszywek. Eternal September filtruje spamassassinem (też bayesowski) i są
fałszywki, szczególnie w lokalnych hierarchiach (kogutki, "a a" i inne
takie już się na te filtry połapały, a choć wartość merytoryczna ich
postów jest czasem jaka jest, to nie są to masowe spamy, więc nie powinny
być wycinane automatycznie).

Sam wychodzę z założenia, że lepiej przepuścić 10 spamów, niż jeden
nie-spam przez pomyłkę wyciąć (bo spam w razie czego można sobie oczami
przelecieć i zignorować, a jak normalny post na grupę nie dojdzie, to nie
wyczaruje się go z powrotem), więc pisząc filtry traktuję to jako
priorytet (m.in. stąd grupy chmurka.spam.* jako taka siatka
bezpieczeństwa, w razie gdyby było cięte coś, co nie powinno).

--
Idzie Masztalski z obita, sina buzka i taszczy duze walizki. Spotyka
przyjaciela:
- Co Ci się stalo Masztalski?
- A, tesciowa nie pobila.
- Jak by mnie tak tesciowa pobila to bym ja chyba pocwiartowal!
- A ty myslisz, że co ja tu dzwigam w tych walizach?

Arnold Ziffel
Guest

Fri Dec 08, 2023 9:49 pm

io wrote:

Quote:

No tak, trochę mi się dwa podejścia skleiły, że po Subject jest w
overview ale zakresu liter tak łatwo nie da się wybrać i pozostaje np
filtrowanie googlegroups w Path a wtedy już tego nie ma w overview.

Można po Message-ID, jeśli nie boisz się wyciąć kogoś, kto sobie wpisał
google'a w Message-ID, choć nie nadaje z niego.

Zakres liter łatwo jest sprawdzić programowo, ale jeśli poruszasz się
tylko w zakresie sposobów filtrowania, które przewidział twórca czytnika,
i akurat tego nie przewidział, to faktycznie może być problem.

Quote:

Tak generalnie na tych kilka serwerów, które są w Polsce to dałoby się
je jednak obsłużyć gdyby administratorzy mieli na to czas. Bo wracając,
do artykułu sprzed wielu miesięcy, jednak trzeba trochę czasu poświęcić
na to administrowanie a nie, że "każdy sobie może postawić i nic to nie
kosztuje".

Tak, to jest właśnie kwestia czasu, a on z kolei idzie w parze z tym, czy
dany admin korzysta z Usenetu. Jak korzysta, to sam widzi, co się dzieje.
Jak nie korzysta, to po prostu serwer sobie stoi i dopóki nikt mu nic nie
zgłosi, to nawet może nie wiedzieć, że coś się dzieje, bo z logów, które
przychodzą codziennie na maila, nie zawsze to wynika (już pomijając, czy
ktoś te logi czyta, czy po jakimś czasie już kasuje bez czytania).

--
A znacie to jak student poszedl do profesora i zdaje..
Ze nic nie umial i profesor nie wiedzial jaka ocene mu dac, bo nizszej
juz nie bylo to wpisal temu gostkowi do indexu "Osiol", student tak
się patrzy i mowi:
- No dobrze panie prefesorze, podpis juz jest a gdzie ocena?

jn
Guest

Sat Dec 09, 2023 11:07 pm

W dniu 8.12.2023 o 20:45, Arnold Ziffel pisze:

Quote:

Sam wychodzę z założenia, że lepiej przepuścić 10 spamów, niż jeden
nie-spam przez pomyłkę wyciąć (bo spam w razie czego można sobie oczami
przelecieć i zignorować,

Na grupę przychodzi około 9000 artykułów. 3 artykuły na sekundę to 3000
sekund czyli 50 minut dziennie jedna grupa. Dobrze że Usenet nie jest
już tak popularny.

io
Guest

Sun Dec 10, 2023 1:55 am

W dniu 08.12.2023 o 20:49, Arnold Ziffel pisze:

Quote:

io wrote:

No tak, trochę mi się dwa podejścia skleiły, że po Subject jest w
overview ale zakresu liter tak łatwo nie da się wybrać i pozostaje np
filtrowanie googlegroups w Path a wtedy już tego nie ma w overview.

Można po Message-ID, jeśli nie boisz się wyciąć kogoś, kto sobie wpisał
google'a w Message-ID, choć nie nadaje z niego.

Myślę, że dobry pomysł. Aczkolwiek tego spamu już nie widzę.

Quote:

Zakres liter łatwo jest sprawdzić programowo, ale jeśli poruszasz się
tylko w zakresie sposobów filtrowania, które przewidział twórca czytnika,
i akurat tego nie przewidział, to faktycznie może być problem.

O to pytałem, jak zwykły ludzik ma sobie to odfiltrować.

Quote:

Tak generalnie na tych kilka serwerów, które są w Polsce to dałoby się
je jednak obsłużyć gdyby administratorzy mieli na to czas. Bo wracając,
do artykułu sprzed wielu miesięcy, jednak trzeba trochę czasu poświęcić
na to administrowanie a nie, że "każdy sobie może postawić i nic to nie
kosztuje".

Tak, to jest właśnie kwestia czasu, a on z kolei idzie w parze z tym, czy
dany admin korzysta z Usenetu. Jak korzysta, to sam widzi, co się dzieje.

Ale jak korzysta to czasu ma mniej. :-)

Quote:

Jak nie korzysta, to po prostu serwer sobie stoi i dopóki nikt mu nic nie
zgłosi, to nawet może nie wiedzieć, że coś się dzieje, bo z logów, które
przychodzą codziennie na maila, nie zawsze to wynika (już pomijając, czy
ktoś te logi czyta, czy po jakimś czasie już kasuje bez czytania).

To jest inna sprawa, że można nie wiedzieć, że jest jakiś problem.
Podstawowy jak dla mnie to posiadanie czasu właśnie na to, by rozwiązać
kolejny problem jaki pojawił się zamiast sobie pobiegać, pooglądać tv
lub cokolwiek innego życiowego. Administrator zawodowy właśnie tym
administrowaniem zajmuje się a hobbysta może mieć tysiąc ciekawszych i
krótkich tematów niż pilnowanie serwera.

Jarosław Sokołowski
Guest

Sun Dec 10, 2023 5:57 pm

Pan Arnold Ziffel napisał:

Quote:

Czyli nie po języku tylko po znakach. Jak to zrobić w czytniku?

Nie wiem. Jakbym miał to zrobić w czytniku, którego używam (tin), to bym
poczytał, a jakbym nic nie wyczytał, to bym edytował źródła (w tinie
filtrowanie jest w pliku src/filter.c, funkcja filter_articles()).

W ogólności można po "Content-Transfer-Encoding: base64", przynajmniej
w grupach pl.*, w których pisze się po polsku. Teksty w europejskich
językach będą przez większość czytników zakodowane jako "8bit" (a Google
Groups używają "quoted-printable"). Dla tekstów w całości w językach
azjatyckich nie jest to optymalne podejście -- Google Groups używa wtedy
base64. W slrn dałem dodatnią punktację dla "base64" -- nic "normalnego"
się na to nie załapało w ostatnich kilku tysiącach wiadomości na grupie.

--
Jarek

io
Guest

Mon Dec 11, 2023 2:30 pm

W dniu 10.12.2023 o 16:57, Jarosław Sokołowski pisze:

Quote:

Pan Arnold Ziffel napisał:

Czyli nie po języku tylko po znakach. Jak to zrobić w czytniku?

Nie wiem. Jakbym miał to zrobić w czytniku, którego używam (tin), to bym
poczytał, a jakbym nic nie wyczytał, to bym edytował źródła (w tinie
filtrowanie jest w pliku src/filter.c, funkcja filter_articles()).

W ogólności można po "Content-Transfer-Encoding: base64", przynajmniej
w grupach pl.*, w których pisze się po polsku. Teksty w europejskich
językach będą przez większość czytników zakodowane jako "8bit" (a Google
Groups używają "quoted-printable"). Dla tekstów w całości w językach
azjatyckich nie jest to optymalne podejście -- Google Groups używa wtedy
base64. W slrn dałem dodatnią punktację dla "base64" -- nic "normalnego"
się na to nie załapało w ostatnich kilku tysiącach wiadomości na grupie.

A nie można po dwu literkach "o" w Path?

Jarosław Sokołowski
Guest

Mon Dec 11, 2023 3:35 pm

io pisze:

Quote:

W ogólności można po "Content-Transfer-Encoding: base64", przynajmniej
w grupach pl.*, w których pisze się po polsku. Teksty w europejskich
językach będą przez większość czytników zakodowane jako "8bit" (a Google
Groups używają "quoted-printable"). Dla tekstów w całości w językach
azjatyckich nie jest to optymalne podejście -- Google Groups używa wtedy
base64. W slrn dałem dodatnią punktację dla "base64" -- nic "normalnego"
się na to nie załapało w ostatnich kilku tysiącach wiadomości na grupie.

A nie można po dwu literkach "o" w Path?

Lepiej, ale nie o taki filtr chodziło. Jak ktoś chce wyciąć *wszystko* z
Google Groups, to zamiast kombinować z nazwami serwerów w Patch, łatwiej
i pewniej filtrować po "User-Agent: G2/1.0" -- tu żadnych pomyłek filtra
nie należy się spodziewać. Sam tak zresztą od lat robię -- tnę googla
dużym ujemnym scorem, ale kilku nieidiotów piszących stamtąd odplonkowuję
taką samą dodatnią punktacją. To rozwiązanie niemal idealne, żaden spam
czy inne śmieci nigdy mi się nie wciskają.

Wyżej pokazałem jak odcedzić niełacińskie wiadomości. To powinno być
skuteczne niezależnie od źródła (chociaż poza Google Groups takich źródeł
nie ma).

--
Jarek

a a
Guest

Mon Dec 11, 2023 4:18 pm

On Monday 11 December 2023 at 14:35:10 UTC+1, Jarosław Sokołowski wrote:

Quote:

io pisze:
W ogólności można po "Content-Transfer-Encoding: base64", przynajmniej
w grupach pl.*, w których pisze się po polsku. Teksty w europejskich
językach będą przez większość czytników zakodowane jako "8bit" (a Google
Groups używają "quoted-printable"). Dla tekstów w całości w językach
azjatyckich nie jest to optymalne podejście -- Google Groups używa wtedy
base64. W slrn dałem dodatnią punktację dla "base64" -- nic "normalnego"
się na to nie załapało w ostatnich kilku tysiącach wiadomości na grupie.

A nie można po dwu literkach "o" w Path?
Lepiej, ale nie o taki filtr chodziło. Jak ktoś chce wyciąć *wszystko* z
Google Groups, to zamiast kombinować z nazwami serwerów w Patch, łatwiej
i pewniej filtrować po "User-Agent: G2/1.0" -- tu żadnych pomyłek filtra
nie należy się spodziewać. Sam tak zresztą od lat robię -- tnę googla
dużym ujemnym scorem, ale kilku nieidiotów piszących stamtąd odplonkowuję
taką samą dodatnią punktacją. To rozwiązanie niemal idealne, żaden spam
czy inne śmieci nigdy mi się nie wciskają.

Wyżej pokazałem jak odcedzić niełacińskie wiadomości. To powinno być
skuteczne niezależnie od źródła (chociaż poza Google Groups takich źródeł
nie ma).

--
Jarek

Po co ględzić 100 razy to samo.

Google Groups nie generują spamu reklamowego, bo są zabezpieczonbe przez Captcha
i roboty reklamowe są wycięte, a Captcha opóźnia Zenkom wysyłanie spamu i 1000 spamu nigdy nie wyślą, choćby się zesr.....

Spam produkują serwery usenetowe, których admini dostają za to kasę i te serwery należy wyciąć, odciąć trwale od usenetu i odciąć od internetu, bo mają adresy IP, czyli operator telekomunikacyjny jest znany.

Zasada jest Reject Reject Reject

Czyli identyfikacja ręczna spamu,
poznanie źródła
i odcięcie generatora spamu od usenetu i od Internetu

Czyli działania proaktywne, skuteczne a nie żadne filtrowanie, które zawsze jest wadliwe.

Po prostu nie wpuszcza się do domu bandyty,
a nie wpuszcza każdego i dopiero w domu sprawdza, czy to bandyta

Nawet jak się wytnie 50 czy 100 serwerów usenetowych na świecie i odetnie od internetu,
to nie jest to żaden wysiłek, ani szkoda dla nikogo.

Spam reklamowy, miliony tego spamu dziennie, po prostu nie będzie trafiał do Google Groups,
które nie kasują za rozsyłanie spamu reklamowego, w przeciwieństwie od adminów serwerów usenetowych, którzy z tego nieźle żyją i wyrywają potężną kasę za popełnianie przestępstwa internetowego, czyli działają jak paserzy.

I do sprawy powinna wkroczyć policja internetowa i odpowiednie służby na całym świecie, bo od tego zależy bezpieczeństwo internetu i bezpieczeństwo milionów użytkowników internetu, bo za spamem reklamowym nadejdą generatory wirusów, trojanów i ataków na konta bankowe użytkowników.

Czyli potrzebne są skuteczne i szybkie działania wszystkich państw

io
Guest

Mon Dec 11, 2023 5:11 pm

W dniu 11.12.2023 o 14:35, Jarosław Sokołowski pisze:

Quote:

io pisze:

W ogólności można po "Content-Transfer-Encoding: base64", przynajmniej
w grupach pl.*, w których pisze się po polsku. Teksty w europejskich
językach będą przez większość czytników zakodowane jako "8bit" (a Google
Groups używają "quoted-printable"). Dla tekstów w całości w językach
azjatyckich nie jest to optymalne podejście -- Google Groups używa wtedy
base64. W slrn dałem dodatnią punktację dla "base64" -- nic "normalnego"
się na to nie załapało w ostatnich kilku tysiącach wiadomości na grupie.

A nie można po dwu literkach "o" w Path?

Lepiej, ale nie o taki filtr chodziło. Jak ktoś chce wyciąć *wszystko* z
Google Groups, to zamiast kombinować z nazwami serwerów w Patch, łatwiej
i pewniej filtrować po "User-Agent: G2/1.0" -- tu żadnych pomyłek filtra
nie należy się spodziewać.

No ale właśnie nie bardzo chcemy filtrować wszystko. To jest tylko jakaś
konieczność z braku lepszych kryteriów.

Quote:

Sam tak zresztą od lat robię -- tnę googla
dużym ujemnym scorem, ale kilku nieidiotów piszących stamtąd odplonkowuję
taką samą dodatnią punktacją. To rozwiązanie niemal idealne, żaden spam
czy inne śmieci nigdy mi się nie wciskają.

No i widzisz, znowu nie da się zastosować do przeciętnego czytnika.

Quote:

Wyżej pokazałem jak odcedzić niełacińskie wiadomości. To powinno być
skuteczne niezależnie od źródła (chociaż poza Google Groups takich źródeł
nie ma).

No nie, to jest filtrowanie po kodowaniu, zupełnie absurdalne choć
oczywiście może jest tak, jak piszesz, że działa ok.

Jarosław Sokołowski
Guest

Mon Dec 11, 2023 5:40 pm

io pisze:

Quote:

A nie można po dwu literkach "o" w Path?
Lepiej, ale nie o taki filtr chodziło. Jak ktoś chce wyciąć *wszystko* z
Google Groups, to zamiast kombinować z nazwami serwerów w Patch, łatwiej
i pewniej filtrować po "User-Agent: G2/1.0" -- tu żadnych pomyłek filtra
nie należy się spodziewać.

No ale właśnie nie bardzo chcemy filtrować wszystko. To jest tylko jakaś
konieczność z braku lepszych kryteriów.

Po co w takim razie było wyskakiwać z pomysłami filtrowania podwójnego o?
Dla mnie to jest najlepsze kryterium. Ja tak *chcę* a nie *muszę*.

Quote:

No i widzisz, znowu nie da się zastosować do przeciętnego czytnika.

No właśnie tego nie widzę. Widzę, że da się i że działa.

Quote:

Wyżej pokazałem jak odcedzić niełacińskie wiadomości. To powinno być
skuteczne niezależnie od źródła (chociaż poza Google Groups takich
źródeł nie ma).

No nie, to jest filtrowanie po kodowaniu, zupełnie absurdalne choć
oczywiście może jest tak, jak piszesz, że działa ok.

W polskim tłumaczeniu "kodowaniem" nazywa się to, co jest w nagłówku
"Content-Type", czyli np. "charset=iso-8859-2" lub "charset=utf-8".
Tu chodzi o nagłówek "Content-Transfer-Encoding", z naciskiem na
"Transfer". To zupełnie co innego niż charset.

--
Jarek

io
Guest

Mon Dec 11, 2023 6:00 pm

W dniu 11.12.2023 o 16:40, Jarosław Sokołowski pisze:

Quote:

io pisze:

A nie można po dwu literkach "o" w Path?
Lepiej, ale nie o taki filtr chodziło. Jak ktoś chce wyciąć *wszystko* z
Google Groups, to zamiast kombinować z nazwami serwerów w Patch, łatwiej
i pewniej filtrować po "User-Agent: G2/1.0" -- tu żadnych pomyłek filtra
nie należy się spodziewać.

No ale właśnie nie bardzo chcemy filtrować wszystko. To jest tylko jakaś
konieczność z braku lepszych kryteriów.

Po co w takim razie było wyskakiwać z pomysłami filtrowania podwójnego o?
Dla mnie to jest najlepsze kryterium. Ja tak *chcę* a nie *muszę*.

Kasowanie podwójnych literek "o" jest zdecydowanie poprawniejsze niż
filtrowanie po kodowaniu.

Quote:

No i widzisz, znowu nie da się zastosować do przeciętnego czytnika.

No właśnie tego nie widzę. Widzę, że da się i że działa.

Wyżej pokazałem jak odcedzić niełacińskie wiadomości. To powinno być
skuteczne niezależnie od źródła (chociaż poza Google Groups takich
źródeł nie ma).

No nie, to jest filtrowanie po kodowaniu, zupełnie absurdalne choć
oczywiście może jest tak, jak piszesz, że działa ok.

W polskim tłumaczeniu "kodowaniem" nazywa się to, co jest w nagłówku
"Content-Type", czyli np. "charset=iso-8859-2" lub "charset=utf-8".
Tu chodzi o nagłówek "Content-Transfer-Encoding", z naciskiem na
"Transfer". To zupełnie co innego niż charset.

Ale ja się na tym znam, po ci mi to tłumaczysz.

Czy tylko ja widze te durne reklamy na p.m.e ?

NOWY TEMAT

NOWY TEMAT