lundi 24 avril 2006 par ClarK
A ce stade, nous disposons déjà d’une base de données contenant les tokens, avec leur nombre d’occurrences, provenant des pages traitées lors de l’apprentissage.
Une page au contenu inconnu peut alors être tokenisée à son tour. Chaque token trouvé dans cette page est alors recherché dans la base d’apprentissage afin de calculer la probabilité qu’elle soit classée comme interdite sachant qu’elle contient ce token.
La méthode statistique mise en oeuvre dans le projet est tirée des calculs utilisés dans les logiciels de détection de Spam. Elle est basée sur des calculs bayésiens et se divise en quatre étapes :
Pour chaque constituant de la page tokenisée (balises, domaines, mots et bi-mots) il est tout d’abord nécessaire de calculer leurs probabilités individuelles. Un token est cette fois comptabilisé autant de fois qu’il apparaît dans une page. Pour ce faire nous nous basons sur les valeurs (occurrences) stockées en base d’apprentissage. Pour chaque token qui apparaît dans la page nous calculons :



Ces probabilités obtenues pour chaque token présent dans la page peuvent ensuite être combinées pour attribuer un score et ainsi catégoriser la page en question.
On peut cependant noter un problème dans ce calcul. En effet lors de l’apprentissage tous les
mots pouvant exister (de n’importe quelle langue) n’ont pas forcément été rencontrés plusieurs
où même une seule fois. Il en va de même pour les balises HTML et leur contenu ; il est
impossible d’en avoir une liste exhaustive suite à l’apprentissage étant donnée l’étendue des
possibilités offertes (ne serait-ce que sur le choix d’une couleur).
Ainsi pour un token n’ayant été rencontré qu’une seule fois lors de l’apprentissage ce calcul
donne trop d’importance à la probabilité individuelle correspondante.
Exemple 1 :
Pour simplifier les choses nous dirons que nous avons autant de pages interdites et autorisées
en apprentissage ce qui donne le calcul de probabilité individuelle :

Exemple 2 :
Prenons un token ayant 10 occurrences interdites et 1 autorisée.
On aura : p(w)=(10)/(10+1)=0.91
Or notre expérience nous montre que la première probabilité ne peut être de 1, nous ne
pouvons pas être certains que ce mot désigne une page interdite, nous manquons
seulement de données à son sujet. De même pour le deuxième exemple.
Il nous faut donc trouver un moyen d’altérer ces probabilités afin de diminuer la force qui leur
est attribuée.
La méthode suivante permet de prendre en compte les mots rares c’est à dire ceux
n’apparaissant pas souvent, voir jamais, lors de l’apprentissage.
Cette méthode nous est fournie par les statistiques bayésiennes qui permettent de traiter ce
genre de cas avec efficacité. Le principe est d’attribuer un degré de confiance à un évènement
donné.
Ceci nous permet d’ajouter notre expérience aux données et valeurs collectées lors de
l’apprentissage.
Nous calculons ce degré de confiance basé sur le calcul précédent de p(w) comme suit :

Pour commencer ces valeurs sont initialisées à 1 pour s et 0.5 pour x. Il faudra ensuite les
modifier en testant plusieurs pages pour tenter d’optimiser les résultats.
Maintenant nous utiliserons f(w) plutôt que p(w) car ce dernier ne donne pas des résultats
réalistes prenant en compte notre expérience.
Reprenons les exemples précédents avec s=4 et x=0.45 :
Exemple 1 :f(w)=((4×0.45)+(1×1))/(4+1)=0.56 et non plus 1
Exemple 2 :f(w)=((4×0.45)+(11×0.95))/(4+11)=0.79 et non plus 0.91
La force donnée à un mot rare est donc maintenant beaucoup plus faible. L’exemple 1 qui avait avant une probabilité plus forte que l’exemple 2 est maintenant plus faible comme cela doit l’être réellement aux vues de notre expérience.
Afin d’expliquer ce calcul prenons pour exemple le jeu de pile ou face.
Il y a n lancers effectués, chaque lancer est un essai et nous comptabilisons le nombre de face
obtenu. Il s’agit d’un test suivant une loi binomiale (il y a deux valeurs, pile et face), de plus
chaque lancer est indépendant.
On peut ainsi calculer la probabilité que le n+unième lancer donne une face par le calcul
suivant :

On peut maintenant rapporter ce calcul au cas nous concernant. Lors de la recherche de la probabilité individuelle d’un token, nous réalisons un essai indépendant des autres (le fait qu’une page contienne le mot ’porn’ n’est pas corrélé au fait que la prochaine le contienne également), pouvant avoir deux issues (autorisée ou interdite). Nous sommes donc dans le même cas que le lancer de pièce et la probabilité qu’une page contenant un token donné appartienne à la catégorie interdite suit une loi binomiale.
Si on pose, dans l’équation précédente :
On retrouve alors :

En essayant avec s = 1 et x = 0.5 (les paramètres de départ) on obtient les paramètres de la
loi binomiale : u = v = 0.5.
Donc nos paramètres de départ ont été choisis en faisant l’hypothèse d’équiprobabilité des
évènements (un token inconnu a autant de chance d’appartenir à une page autorisée qu’à une
page interdite).
Avec le calcul de f(w) plutôt que p(w) nos résultats devraient être plus précis.
Il est maintenant temps de combiner les différentes probabilités afin d’obtenir un score global de la page.
Nous sommes donc maintenant capables de calculer les probabilités individuelles de chaque
token rencontré dans une page, basées sur notre expérience et sur les données stockées en
base.
Chaque page peut être alors représentée par un ensemble de probabilités. Il nous faut
combiner cet ensemble de probabilités afin de produire un indicateur correct du contenu de la
page.
Reprenons l’exemple du lancer de pièce.
Si nous partons avec l’hypothèse de départ que cette pièce n’est pas biaisée, et lançons 10 fois
la pièce et obtenons 10 fois face, la probabilité globale sera de (1/ 2)10 = 1/1024 . Ce serait un
événement très peu probable en prenant en compte l’hypothèse de départ.
Mais en rejetant cette hypothèse de départ et à la place prendre celle qui dit que la pièce est
biaisée, alors ce résultat deviendrait normal.
Une méthode a été écrite par R.A. Fisher (1932), qui, appliquée à notre modèle permet de tirer le même genre de conclusion, en l’occurrence de rejeter ou valider une hypothèse de départ.
Notre hypothèse de départ est : "les probabilités individuelles sont précises, et les pages pour lesquelles ont attribue les scores sont une collection aléatoire de tokens, indépendants les uns par rapport aux autres, tels que ces probabilités suivent une loi uniforme."
La méthode de combinaison de Fisher permet de combiner les probabilités de n études
indépendantes. Les n probabilités p1 ,p2 ,..., pn représentent un échantillon indépendant de la
loi binomiale.
Il est noter que dans le cas de non indépendance des probabilités individuelles, la méthode de
Ficher conduit à des obtenir de grandes valeurs qui nous permettent de rejeter notre hypothèse
de départ.
Les étapes du calcul sont :
Dans notre cas les n études indépendantes sont les n tokens récupérés dans la page pour laquelle on désire attribuer un score.
La formule globale est :

Un score proche de 0 nous permettra donc de rejeter notre hypothèse de départ et à la place
prendre celle qui dit que la page à laquelle on attribue un score appartient à la catégorie
autorisée.
Un score proche de 1, au contraire, nous fera choisir l’hypothèse de départ selon laquelle la
page appartient à la catégorie interdite.
Le résultat précédent nous pose cependant problème dans le sens où la combinaison présente une faiblesse. En effet dans ce calcul du produit des logarithmes les valeurs faibles (proches de 0) apporteront plus de poids dans le résultat final que les valeurs proches de 1 (dans un produit de valeurs comprises entre 0 et 1 les valeurs proches de 0 font tendre celui-ci vers 0 plus rapidement que les valeurs proches de 1 ne le font tendre vers 1).
Sachant que la méthode de combinaison de Fisher est basé sur un produit de valeurs on en déduit que les pages appartenant à la catégorie autorisée sont avantagées par ce calcul.
Cependant, il a des moyens de gérer ce problème qui n’apporte pas de tendance à mal classifier les pages autorisées en interdites.
La méthode la plus efficace est la suivante :

A ce point et afin d’améliorer les résultats pour qu’ils soient réellement proches de 0 ou de 1, le meilleur moyen est de supprimer, lors de la combinaison des probabilités individuelles, celles à faible déviation, c’est-à-dire qui font tendre le résultat vers 0.5. Ces probabilités sont 28 principalement dues à des tokens non présents en base d’apprentissage et ils sont extrêmement nombreux ce qui peut fausser les calculs. La déviation peut être bien évidemment réglée et 0.4 (les probabilités comprises entre 0.4 et 0.6 seront supprimées du calcul final) semble être un bon point de départ.
Your article is so helpful. I’m a faithful football fan and have heard that all the jerseys from online shop are much cheaper. Recently, I was planning to buy some authentic nfl jerseys nfl jerseys cheap nfl jerseys NFL jerseys for sale authentic nhl jerseys cheap nhl jerseys nhl jerseys nhl jerseys for sale authentic NBA jerseys nba jerseys cheap mlb jerseys cheap authentic mlb jerseys saints super bowl jerseys saints superbowl jersey saints authentic superbowl jersey saints jerseys super bowl jerseys pro bowl jerseys pittsburgh steelers jerseys steelers jerseys colts jerseys cowboys jerseys New Orleans Saints jerseys Olympic Hockey Jerseys Olympic Jerseys Bruins Jerseys Blackhawks Jerseys Red Wings Jerseys Oilers Jerseys Canadiens Jerseys Rangers Jerseys Penguins Jerseys Maple Leafs Jerseys Chicago Blackhawks Jerseys Indianapolis Colts jerseys Baltimore Ravens jerseys Minnesota Vikings jerseys NHL Woman Jerseys NHL Youth Jerseys Ottawa Senators Jerseys Buffalo Bills jerseys Jacksonville Jaguars jerseys LaDainian Tomlinson Jersey
Brady Jersey Peterson jersey Brees jersey Meachem jersey Favre jersey TRACY PORTER SUPER BOWL Jersey PORTER Jersey michael oher jersey Julius Peppers jersey Anquan Boldin jersey Antonio Cromartie jersey Karlos Dansby jersey Antrel Rolle jersey Luongo Jersey Iginla Jersey Toews Jersey Brodeur Jersey Nash Jersey Crosby Jersey Lecavalier Jersey MARIO LEMIEUX JERSEY jonathan toews olympic jersey ryan miller olympic jersey Cincinnati Bengals jerseys Houston Texans jerseys Kensas City Chiefs jerseys Anaheim Ducks Jerseys Edmonton Oilers Jerseys Philadelphia Flyers Jerseys Phoenix Coyotes Jerseys New York Islands Jerseys Atlanta Thrashers Jerseys Blue Jackets Jerseys Calgary Flames Jerseys Carolina Hurricanes Jerseys Dallas Stars Jerseys 2009 ALL STAR Jerseys sunjiali
Your article is so helpful. I’m a faithful football fan and have heard that all the jerseys from online shop are much cheaper. Recently, I was planning to buy some authentic nfl jerseys nfl jerseys cheap nfl jerseys NFL jerseys for sale authentic nhl jerseys cheap nhl jerseys nhl jerseys nhl jerseys for sale authentic NBA jerseys nba jerseys cheap mlb jerseys cheap authentic mlb jerseys saints super bowl jerseys saints superbowl jersey saints authentic superbowl jersey saints jerseys super bowl jerseys pro bowl jerseys pittsburgh steelers jerseys steelers jerseys colts jerseys cowboys jerseys New Orleans Saints jerseys Olympic Hockey Jerseys Olympic Jerseys Bruins Jerseys Blackhawks Jerseys Red Wings Jerseys Oilers Jerseys Canadiens Jerseys Rangers Jerseys Penguins Jerseys Maple Leafs Jerseys Chicago Blackhawks Jerseys Indianapolis Colts jerseys Baltimore Ravens jerseys Minnesota Vikings jerseys NHL Woman Jerseys NHL Youth Jerseys Ottawa Senators Jerseys Buffalo Bills jerseys Jacksonville Jaguars jerseys LaDainian Tomlinson Jersey
Brady Jersey Peterson jersey Brees jersey Meachem jersey Favre jersey TRACY PORTER SUPER BOWL Jersey PORTER Jersey michael oher jersey Julius Peppers jersey Anquan Boldin jersey Antonio Cromartie jersey Karlos Dansby jersey Antrel Rolle jersey Luongo Jersey Iginla Jersey Toews Jersey Brodeur Jersey Nash Jersey Crosby Jersey Lecavalier Jersey MARIO LEMIEUX JERSEY jonathan toews olympic jersey ryan miller olympic jersey Cincinnati Bengals jerseys Houston Texans jerseys Kensas City Chiefs jerseys Anaheim Ducks Jerseys Edmonton Oilers Jerseys Philadelphia Flyers Jerseys Phoenix Coyotes Jerseys New York Islands Jerseys Atlanta Thrashers Jerseys Blue Jackets Jerseys Calgary Flames Jerseys Carolina Hurricanes Jerseys Dallas Stars Jerseys 2009 ALL STAR Jerseys sunjiali
Ugg Bag cheap Ugg Bag discount Ugg Bag Ugg Bag sale
UGG Sandals cheap UGG Sandals discount UGG Sandals UGG Sandals sale
Ugg Boots Mou cheap Ugg Boots Mou discount Ugg Boots Mou Ugg Boots Mou sale
Baby Ugg Boots cheap Baby Ugg Boots discount Baby Ugg Boots Baby Ugg Boots sale
Ugg Men Boot cheap Ugg Men Boot discount Ugg Men Boot Ugg Men Boot sale
nike shoes cheap nike shoes discount nike shoes nike shoes sale
moncler women cheap moncler women discount moncler women moncler women sale
moncler men cheap moncler men discount moncler men moncler men sale
moncler kids cheap moncler kids discount moncler kids moncler kids sale