888-roulette-au-casino.com
Roulette au Casino
 

Jeu de données MS CELEB

Home  /   Jeu de données MS CELEB
Jeu de données MS CELEB

Ensemble de données MS CELEB

La construction de systèmes d’IA nécessite des données. Les systèmes d’apprentissage automatique supervisés conçus pour la reconnaissance d’objets ou de visages sont formés sur de grandes quantités de données contenues dans des ensembles de données constitués de nombreuses images discrètes. Pour construire un système de vision par ordinateur qui peut, par exemple, reconnaître la différence entre des images de pommes et d’oranges, un développeur doit collecter, étiqueter et former un réseau neuronal sur des milliers d’images étiquetées de pommes et d’oranges. Côté logiciel, les algorithmes effectuent un relevé statistique des images, et développent un modèle pour reconnaître la différence entre les deux «classes». Si tout se passe comme prévu, le modèle formé pourra distinguer la différence entre les images de des pommes et des oranges qu’il n’a jamais rencontrées auparavant.

Bien qu’il puisse y avoir des variations considérables dans les objectifs et les architectures de différents ensembles de formation, ils partagent certaines propriétés communes. À leur base, les ensembles de formation pour les systèmes d’imagerie consistent en une collection d’images qui ont été étiquetées de différentes manières et triées en catégories. En tant que tels, nous pouvons décrire leur architecture globale comme généralement composée de trois couches: la taxonomie globale (l’agrégat des classes et leur imbrication hiérarchique, le cas échéant), les classes individuelles (les catégories singulières dans lesquelles les images sont organisées, par exemple, «pomme , ) Et chaque image étiquetée individuellement (c.-à-d. Une image individuelle étiquetée pomme). Notre argument est que chaque couche de l’architecture d’un ensemble de formation donné est imprégnée de politique.

Prenons le cas d’un ensemble de données comme la base de données The Japanese Female Facial Expression (JAFFE), développée par Michael Lyons, Miyuki Kamachi et Jiro Gyoba en 1998, et largement utilisé dans la recherche et le développement en informatique affective. L’ensemble de données contient des photographies de 10 modèles féminins japonais faisant sept expressions faciales qui sont censées être en corrélation avec sept états émotionnels de base. (Le but visé de l’ensemble de données est d’aider les systèmes d’apprentissage automatique à reconnaître et à étiqueter ces émotions pour les images nouvellement capturées et sans étiquette). La taxonomie implicite de haut niveau est ici quelque chose comme «des expressions faciales représentant les émotions des femmes japonaises».

UTKFace Dataset

L’un des ensembles de formation les plus importants de l’histoire de l’IA jusqu’à présent est ImageNet, qui fête maintenant son dixième anniversaire. Présenté pour la première fois sous forme d’affiche de recherche en 2009, ImageNet est un ensemble de données d’une portée et d’une ambition extraordinaires. Selon les mots de son co-créateur, Stanford Professor Fei-Fei Li, l’idée derrière ImageNet était de «cartographier le monde entier des objets». Au cours de plusieurs années de développement, ImageNet est devenu énorme: l’équipe de développement a gratté une collection de plusieurs millions de des images provenant d’Internet et est brièvement devenu le plus grand utilisateur universitaire au monde d’Amazon Mechanical Turk, utilisant une armée de travailleurs fragmentaires pour trier en moyenne 50 images par minute en milliers de catégories. Une fois terminé, ImageNet comprenait plus de 14 millions d’images étiquetées organisées en plus de 20 000 catégories. Pendant une décennie, il a été le colosse de la reconnaissance d’objets pour l’apprentissage automatique et une référence puissamment importante pour le domaine.

La structure sous-jacente d’ImageNet est basée sur la structure sémantique de WordNet, une base de données de classifications de mots développé à l’Université de Princeton dans les années 1980. La taxonomie est organisée selon une structure imbriquée de synonymes cognitifs ou «synset». Chaque «synset» représente un concept distinct, avec des synonymes regroupés (par exemple, «auto» et «car» sont traités comme appartenant au même synset) . Ces synsets sont ensuite organisés en une hiérarchie imbriquée, allant de concepts généraux à des concepts plus spécifiques. Par exemple, le concept de «chaise» est imbriqué comme artefact> ameublement> mobilier> siège> chaise. Le système de classification est largement similaire à ceux utilisés dans les bibliothèques pour classer les livres en catégories de plus en plus spécifiques.

Alors que WordNet tente d’organiser la langue anglaise dans son intégralité, ImageNet se limite aux noms (l’idée étant que les noms sont des choses qui les images peuvent représenter). Dans la hiérarchie ImageNet, chaque concept est organisé sous l’une des neuf catégories de haut niveau: plante, formation géologique, objet naturel, sport, artefact, champignon, personne, animal et divers. En dessous, il y a des couches de classes imbriquées supplémentaires.

Conclusion: qui décide?

Comme les domaines des sciences de l’information et des sciences et technologies l’ont montré depuis longtemps, toutes les taxonomies ou systèmes de classification sont politiques . Dans ImageNet (hérité de WordNet), par exemple, la catégorie «corps humain» relève de la branche Objet naturel> Corps> Corps humain. Ses sous-catégories incluent «corps masculin»; la personne; «Corps juvénile»; «Corps adulte»; et «corps féminin». La catégorie «corps adulte» contient les sous-classes «corps féminin adulte» et «corps masculin adulte». Nous trouvons ici une hypothèse implicite: seuls les corps «masculin» et «féminin» sont «naturels». une catégorie ImageNet pour le terme «Hermaphrodite» qui est bizarrement (et offensivement) située dans la branche Personne> Sensualiste> Bisexuel> à côté des catégories «Pseudohermaphrodite» et «Switch Hitter». La hiérarchie de classification ImageNet rappelle l’ancienne classification de la Library of Congress Livres sur le thème des LGBTQ dans la catégorie «Relations sexuelles anormales, y compris les crimes sexuels», que le groupe de travail sur la libération des homosexuels de l’American Library Association a finalement convaincu la Bibliothèque du Congrès de changer en 1972 après une campagne soutenue.

Il y a une sorte de sorcellerie qui entre dans la création de catégories. Créer une catégorie ou nommer des choses, c’est diviser un univers presque infiniment complexe en phénomènes séparés. Imposer de l’ordre à une masse indifférenciée, attribuer des phénomènes à une catégorie – c’est-à-dire nommer une chose – est à son tour un moyen de réifier l’existence de cette catégorie.

Dans le cas d’ImageNet, nom des catégories telles que «pomme» ou «beurre de pomme» peuvent sembler raisonnablement non controversées, mais tous les noms ne sont pas créés égaux. Pour emprunter une idée au linguiste George Lakoff, le concept de «pomme» est plus substantiel que le concept de «lumière», qui à son tour est plus substantiel qu’un concept tel que «santé». Les noms occupent divers endroits sur un axe allant de du concret à l’abstrait et du descriptif au jugement. Ces gradients ont été effacés dans la logique d’ImageNet. Tout est aplati et épinglé sur une étiquette, comme des papillons de taxidermie dans une vitrine. Les résultats peuvent être problématiques, illogiques et cruels, surtout en ce qui concerne les étiquettes appliquées aux personnes.

Crédits et remerciements

ImageNet contient 2 833 sous-catégories dans la catégorie de haut niveau Personne . »La sous-catégorie avec les images les plus associées est« gal »(avec 1 664 images) suivi de« grand-père »(1 662),« papa »(1 643) et chef de la direction (1 614). Avec ces catégories très peuplées, nous pouvons déjà commencer à voir les contours d’une vision du monde. ImageNet classe les gens dans une vaste gamme de types, notamment la race, la nationalité, la profession, le statut économique, le comportement, le caractère et même la moralité. Il existe des catégories pour les identités raciales et nationales, y compris les natifs de l’Alaska, les anglo-américains, les noirs, les africains noirs, les femmes noires, les centraméricains, les eurasiens, les germano-américains, les japonais, les lapins, les latino-américains, les mexico-américains, les nicaraguayens, les nigérians, les pakistanais, les papous , Indien d’Amérique du Sud, hispano-américain, texan, ouzbek, blanc, yéménite et zoulou. D’autres personnes sont identifiées par leur carrière ou leur passe-temps: il y a des scouts, des pom-pom girls, des neuroscientifiques cognitifs, des coiffeurs, des analystes du renseignement, des mythologues, des détaillants, des retraités, etc.

Alors que nous allons plus loin dans les profondeurs de Les catégories de personnes d’ImageNet, les classifications des humains en son sein prennent une tournure nette et sombre. Il existe des catégories pour Bad Person, Call Girl, Drug Addict, Closet Queen, Convict, Crazy, Failure, Flop, Fucker, Hypocrite, Jezebel, Kleptomaniac, Loser, Melancholic, Nonperson, Pervert, Prima Donna, Schizophrenic, Second-Rater, Spinster , Streetwalker, Stud, Tosser, Unskilled Person, Wanton, Waverer et Wimp. Il existe de nombreux propos racistes et termes misogynes.

L’ensemble de données ImageNet est généralement utilisé pour la reconnaissance d’objets. Mais dans le cadre de notre méthode archéologique, nous étions intéressés de voir ce qui se passerait si nous formions un modèle d’IA exclusivement sur ses catégories de «personnes». Le résultat de cette expérience est la roulette ImageNet.

Par Kate Crawford et Trevor Paglen

La roulette ImageNet utilise un cadre d’apprentissage en profondeur Caffe open source (produit à UC Berkeley) formé sur le des images et des étiquettes dans les catégories «personne» (qui sont actuellement «hors service»). Les noms appropriés ont été supprimés.

Lorsqu’un utilisateur télécharge une image, l’application exécute d’abord un détecteur de visage pour localiser les visages. S’il en trouve, il les envoie au modèle Caffe pour classification. L’application renvoie ensuite les images originales avec une boîte englobante montrant le visage détecté et l’étiquette que le classificateur a attribuée à l’image. Si aucun visage n’est détecté, l’application envoie la scène entière au modèle Caffe et renvoie une image avec une étiquette dans le coin supérieur gauche.

Comme nous l’avons montré, ImageNet contient un certain nombre de problèmes problématiques, offensants, et des catégories bizarres. Par conséquent, les résultats obtenus par ImageNet Roulette s’appuient souvent sur ces catégories. C’est par la conception: nous voulons faire la lumière sur ce qui se passe lorsque les systèmes techniques sont formés à l’aide de données de formation problématiques. Les classifications AI des personnes sont rarement rendues visibles aux personnes classées. La roulette ImageNet donne un aperçu de ce processus et montre comment les choses peuvent mal tourner.

Taxonomie

La roulette ImageNet ne stocke pas les photos que les gens téléchargent.

Les images sont chargées de significations potentielles, de questions insolubles et de contradictions. En essayant de résoudre ces ambiguïtés, les étiquettes d’ImageNet compressent et simplifient souvent les images en banalités mortes. Une photographie montre un tout-petit à la peau sombre portant des vêtements en lambeaux et sales et tenant une poupée tachée de suie. La bouche de l’enfant est ouverte. L’image est totalement dépourvue de contexte. Qui est cet enfant? Où sont-elles? La photographie est simplement étiquetée «jouet».