.

Après beaucoup de torsions neuronales, et une intervention musclée de monsieur Fleury sur notre script, on commence à avoir un résultat pas trop mauvais.

Tout d’abord, on ne vous avait pas présenté notre expression régulière, qui prend on compte de terme dans les trois langues, et leurs dérivations, ainsi que leur abréviation.

expregu

Que l’on a testé directement sur le terminal avant de la mettre dans le script:

expreg

Autre chose que l’on a trouvé utile voire nécessaire, un fichier de log, quand une fois l’exécution du script terminée et que l’on ne peut pas voir, sur le terminal, le début. On met donc cela au début du script pour générer un fichier qui indique tout ce que le terminal affiche:

exec &> sortie.log

Un morceau de notre code:

0701307012

070140701507016

Vous pouvez le constater, on a préféré traiter d’abord rechercher le charset dans la page source, et en cas d’urgence, filtrer l’encodage avec fil puis iconv.

Enfin, notre tableau:

07017

 

Les contextes Dump (nous avons choisi de garder une ligne au dessus et une ligne au dessous.07018

Les index (que l’on va tenter de classer par fréquence par la suite):

07019

 

Les global-Dump :070110

Nous avons renoncé à faire les contextes html dans la mesure où le mini grep ne fonctionnait pas sur la machine, et que, étant donné nos langues, les contextes dumps étaient suffisants.

Il nous reste donc à peaufiner tout cela, continuer le site qui a été commencé, et, maintenant que nous avons les données nécessaires, nous attaquer au trameur.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s