
Contexte du projet
Joystick est un ancien magazine français de presse francophone spécialisé dans les jeux vidéo sur ordinateurs personnels. Paru initialement sous la forme d’un hebdomadaire en 1988 et 1989, il passe mensuel en 1990. Sa diffusion s’arrête en 2012. Il constitue aujourd’hui une formidable source d’informations historiques sur le jeu vidéo. Une grande partie de ses numéros sont disponibles sous la forme de scans JPG sur le site Abandonware-magazine.org : https://www.abandonware-magazines.org/affiche_mag.php?mag=30&page=presentation
Nous allons réaliser un moteur de recherche, basé sur le texte de chaque page obtenu par OCRisation et disponible sous la forme d’un fichier texte.
Nous aborderons différentes méthodes de recherche dans un texte, afin d’optimiser les temps d’exécution sur de grandes quantités de texte.
Activité pédagogique
Ressources vidéos du projet
Vidéo 1
>> Télécharger
Vidéo 2
>> Télécharger
Exemples de déroulement de l’algorithme de Boyer Moore Horspool
Vidéo 3a: : Exemple avec 2 occurrences à trouver
Vidéo 3b : Motif de 5 lettres
Vidéo 3c : Motif de 2 lettres
Base textuelle du magazine
>> Les bases textuelles du magazine Joystick
Deux versions sont disponibles, utiliser la version Extrait afin d’avoir des cycles de développement plus court.
Exemple du résultat attendu
Voici quelques exemples utilisant le moteur de recherche
Recherche de « nvidia »
Recherche de « flight simulator »
Recherche de « 233 mhz »
Ecrit par Picassciences
Poster un commentaire