Filtrage Web/ Web Filter
> Théorie

Cet outil distingue deux phases qui sont l’apprentissage et l’attribution d’un score (scoring).

Pour chacune de ces phases deux principes sont appliqués : la tokenisation et le stockage des tokens.

Pour la phase d’attribution de score on utilise en plus des calculs statistiques. Le but est de catégoriser une page en autorisée ou interdite.


Articles de cette rubrique

Scoring/Approche statistique (Théorie)

lundi 24 avril 2006 par ClarK
A ce stade, nous disposons déjà d’une base de données contenant les tokens, avec leur nombre d’occurrences, provenant des pages traitées lors de l’apprentissage. Une page au contenu inconnu peut alors être tokenisée à son tour. Chaque token trouvé dans cette page est alors recherché dans la (...) > suite

Apprentissage (Théorie)

lundi 24 avril 2006 par ClarK
Il regroupe les deux étapes vues précédemment (tokenisation et stockage des tokens). Le but est ici de disposer d’un ensemble de pages représentatives des catégories autorisée et interdite. Il faut de même un nombre conséquent de ces pages afin que l’apprentissage soit bon, et que les données (...) > suite

Stockage (Théorie)

lundi 24 avril 2006 par ClarK
Lors de la récupération des tokens, à chaque page, il nous faut les stocker : de façon temporaire en phase d’apprentissage comme en phase d’attribution de score, afin de pouvoir les traiter de la manière dont chaque phase l’exige, de façon permanente pour le stockage des tokens et de (...) > suite

Tokenisation (Théorie)

lundi 24 avril 2006 par ClarK
Le principe de la tokenisation est de découper en morceaux significatifs (les tokens) le code d’une page Web. Afin de déterminer ce qui est significatif du contenu d’une page Web à partir de son code il a fallu en étudier la forme. Exemple : http://www.cplair.com/ suite

Accueil du site | Contact | Plan du site | Espace privé | visites : 4468

RSS RSSfr RSSThéorie

Site réalisé avec SPIP 1.8.3 + ALTERNATIVES