L'outil de référence pour atteindre l'excellence en sciences

Contexte du porjet

Joystick est un ancien magazine français de presse francophone spécialisé dans les jeux vidéo sur ordinateurs personnels. Paru initialement sous la forme d’un hebdomadaire en 1988 et 1989, il passe mensuel en 1990. Sa diffusion s’arrête en 2012. Il constitue aujourd’hui une formidable source d’informations historiques sur le jeu vidéo. Une grande partie de ses numéros sont disponibles sous la forme de scans JPG sur le site Abandonware-magazine.org : https://www.abandonware-magazines.org/affiche_mag.php?mag=30&page=presentation

Nous allons réaliser un moteur de recherche, basé sur le texte de chaque page obtenu par OCRisation et disponible sous la forme d’un fichier texte.

Nous aborderons différentes méthodes de recherche dans un texte, afin d’optimiser les temps d’exécution sur de grandes quantités de texte.

Activité pédagogique

>> Sujet

Ressources vidéos du projet

Vidéo 1

Vidéo 2

Exemples de déroulement de l’algorithme de Boyer Moore Horspool

Vidéo 3a: : Exemple avec 2 occurrences à trouver

Vidéo 3b : Motif de 5 lettres

Vidéo 3c : Motif de 2 lettres

Base textuelle du magazine

>> Les bases textuelles du magazine Joystick

Deux versions sont disponibles, utiliser la version Extrait afin d’avoir des cycles de développement plus court.

Exemple du résultat attendu

Voici quelques exemples utilisant le moteur de recherche

Recherche de « nvidia »

Recherche de « flight simulator »

Recherche de « 233 mhz »