.

Après quelques difficultés avec notre script, nous avons opté pour un changement d’architecture (bon, quand je dis « nous », c’est pour souligner la cohésion du groupe, en vrai, c’est en grande partie Gaël qui a sauvé la mise).

L’architecture du script a été profondément modifiée. En effet, on va chercher directement le charset dans le code source plutôt que de passer par la commande file qui a ses limites, comme nous le faisions dans l’article précédent. Nous utiliserons cette dernière en dernier recours. Nous avons par ailleurs ajouté les index, autrement dit, un fichier txt indiquant la fréquence de chaque occurrences. Au passage, le terrain est préparé pour les contextes, ainsi que pour les « global dump », regroupant tous les dump par langue.

architexturescript

Et ça donne quelque chose comme cela :

botablo

Un beau tableau. Qui cache des choses:

Exemple de l’index n°1-4, qui a plutôt fonctionné:

index4

A la différence de l’index 1-9 :

index9

En réalité, pour toutes les pages qui ont subi une conversion, le même message d’erreur apparaît pour l’index.

Il nous faut donc encore corriger ce petit couac, nettoyer les fichiers qui sont ultra pollués par la nature même de notre corpus (les forums) avant de travailler sur les contextes…

 

**Autre petite chose un peu étrange, systématiquement, un message d’erreur apparaît sur le terminal pendant l’exécution pour le 1-3 :

erreurlynx

L’url fonctionne bien, le code source affiche bien « charset=utf-8 », la page aspirée et le dump s’affichent pourtant correctement.

 

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s