Przez chwilę się zastanawiałem czy byłby sens rozdzielać zbiory dokumentów ze wzorcami na przykład na główny zbiór oraz zbiory językowe włączające się dla konkretnych tagów (np. polski dla #polish
i #pl-.*
) ale to chyba nie ma sensu bo nie widziałem jeszcze (jeszcze!) spamu po polsku.
Chyba, że w innych językach jest inaczej?
Teraz połowa zbioru treningowego, dla wiadomości które nie są spamem jest po polsku, a połowa po angielsku. Spamowe są tylko po angielsku, ale nic nie stoi na przeszkodzie, żeby dodać też jakieś polskie.
I to są dane przeznaczone dla tagu #polish (= zoptymalizowane pod ten tag) Jakby ktoś chciał to uruchomić np na tagu #deutsch albo globalnie na całym steemie to dane trzeba oczywiście dopasować.