L'outil de référence pour atteindre l'excellence en sciences

Introduction :

I. KNN : Comment ça marche ?

Source : https://www.science.lu/fr/bande-dessinee/frontiere-entre-sciences-biomedicales-informatiques

2. Exemple d’un algorithme d’intelligence artificielle

Vous pouvez essayer un algorithme de classification à l’adresse suivante. Prenez n’importe quelle photo, l’algorithme sera capable de la classifier. https://cloud.google.com/vision/docs/drag-and-drop

3. L’algorithme des k plus proches voisins : principe général

Le principe

4. Exercice sur feuille

5. L’algorithme des k plus proches voisins : exemple pratique

ATTENTION : On utilise ici WinPython 3.8





Historique

En 1936, Edgar Anderson a collecté des données sur 3 espèces d’iris : « iris setosa », « iris virginica » et « iris versicolor ».

Pour chaque iris étudié, Anderson a mesuré (en cm) :

Par souci de simplification, nous nous intéresserons uniquement à la largeur et à la longueur des pétales. Pour chaque iris mesuré, Anderson a aussi noté l’espèce (« iris setosa », « iris virginica » ou « iris versicolor »)

Vous trouverez 50 de ces mesures dans un fichier iris.csv

En résumé, vous trouverez dans ce fichier :

  • la longueur des pétales
  • la largeur des pétales
  • l’espèce de l’iris (au lieu d’utiliser les noms des espèces, on utilisera des chiffres : 0 pour « iris setosa », 1 pour « iris virginica » et 2 pour « iris versicolor »)

Données CSV (pour voir à quoi ressemblent les données) : https://pixees.fr/informatiquelycee/n_site/asset/iris.csv

Activité à rendre

Programme 1 à télécharger et à exécuter dans pyzo (Python 3.8).

Question A : Ajoutez des commentaires pour légender l’utilité de chaque groupe de lignes.

Programme 2 à télécharger et à exécuter dans pyzo (Python 3.8).

Question B :

Déplacer le point noir en modifiant le code pour obtenir les trois classes successivement

Etapes algorithmiques de choix des k plus proches voisins :

  • on calcule la distance entre notre point (largeur du pétale = 0,75 cm ; longueur du pétale = 2,5 cm) et chaque point issu du jeu de données « iris » (à chaque fois c’est un calcul de distance entre 2 points tout ce qu’il y a de plus classique)
  • on sélectionne uniquement les k distances les plus petites (les k plus proches voisins)
  • parmi les k plus proches voisins, on détermine quelle est l’espèce majoritaire. On associe à notre « iris mystère » cette « espèce majoritaire parmi les k plus proches voisins »

Question C : Faire varier k autour d’une position fixe. Consignez vos observations dans trois cas.

Question D : QCM

Dans le quadrillage ci-dessus 14 points sont dessinés, dont 7 de la classe C1, avec des ronds noirs •, et 7 de la classe C2, avec des losanges ◇.

On introduit un nouveau point A, dont on cherche la classe à l’aide d’un algorithme des k plus proches voisins pour la distance géométrique habituelle, en faisant varier la valeur de k parmi 1, 3 et 5.

Quelle est la bonne réponse (sous la forme d’un triplet de classes pour le triplet (1,3,5) des valeurs de k) ?

Réponses possibles

A (C1, C2, C3)

B (C2, C1, C2)

C (C2, C2, C2)

D (C2, C1, C1)

Vous justifierez votre réponse

Pour aller plus loin

Vous avez une question ?

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :