Sélection aléatoire Excel : comment obtenir un échantillon aléatoire à partir d'un ensemble de données ?

  • Partage Ça
Michael Brown

Vous apprendrez également comment obtenir un échantillon aléatoire sans doublons et comment sélectionner de manière aléatoire un nombre ou un pourcentage spécifique de cellules, de lignes ou de colonnes en un clic de souris.

Que vous réalisiez une étude de marché pour le lancement d'un nouveau produit ou que vous évaluiez les résultats de votre campagne de marketing, il est important que vous utilisiez un échantillon de données non biaisé pour votre analyse. Et le moyen le plus simple d'y parvenir est d'obtenir une sélection aléatoire dans Excel.

    Qu'est-ce qu'un échantillon aléatoire ?

    Avant d'aborder les techniques d'échantillonnage, donnons quelques informations de base sur la sélection aléatoire et sur les cas où vous pouvez l'utiliser.

    En théorie des probabilités et en statistique, une échantillon aléatoire est un sous-ensemble de données sélectionné à partir d'un ensemble de données plus large, alias population Chaque élément d'un échantillon aléatoire est choisi entièrement par hasard et a une probabilité égale d'être sélectionné. Pourquoi en avez-vous besoin ? En fait, pour obtenir une représentation non biaisée de la population totale.

    Par exemple, vous souhaitez mener une petite enquête auprès de vos clients. Il serait évidemment peu judicieux d'envoyer un questionnaire à chaque personne de votre base de données de plusieurs milliers de personnes. Alors, à qui allez-vous adresser votre enquête ? S'agira-t-il des 100 plus récents clients, des 100 premiers clients classés par ordre alphabétique ou des 100 personnes dont le nom est le plus court ? Aucune de ces approches ne répond à vos besoins car elles sont innées.Pour obtenir un échantillon impartial, où chacun a une chance égale d'être choisi, effectuez une sélection aléatoire en utilisant l'une des méthodes décrites ci-dessous.

    Sélection aléatoire Excel avec des formules

    Il n'existe pas de fonction intégrée permettant de sélectionner des cellules de manière aléatoire dans Excel, mais vous pouvez utiliser l'une des fonctions permettant de générer des nombres aléatoires comme solution de rechange.

    Comment sélectionner une valeur aléatoire dans une liste

    Supposons que vous disposiez d'une liste de noms dans les cellules A2:A10 et que vous souhaitiez sélectionner un nom au hasard dans cette liste :

    =INDEX($A$2:$A$10,RANDBETWEEN(1,COUNTA($A$2:$A$10)),1)

    ou

    =INDEX($A$2:$A$10,RANDBETWEEN(1,ROWS($A$2:$A$10)),1)

    Et voilà, votre sélecteur de nom aléatoire pour Excel est prêt à être utilisé :

    Note. Veuillez noter que RANDBETWEEN est une volatile ce qui signifie qu'elle sera recalculée à chaque modification apportée à la feuille de calcul. Par conséquent, votre sélection aléatoire changera également. Pour éviter que cela ne se produise, vous pouvez copier le nom extrait et le coller comme valeur dans une autre cellule ( Collage spécial > ; Valeurs Pour des instructions détaillées, veuillez consulter la rubrique Comment remplacer les formules par des valeurs.

    Naturellement, ces formules peuvent non seulement sélectionner des noms aléatoires, mais aussi des nombres aléatoires, des dates ou toute autre cellule aléatoire.

    Comment fonctionnent ces formules

    En bref, vous utilisez la fonction INDEX pour extraire une valeur de la liste en fonction d'un numéro de ligne aléatoire renvoyé par RANDBETWEEN.

    Plus précisément, la fonction RANDBETWEEN génère un nombre entier aléatoire entre les deux valeurs que vous spécifiez. Pour la valeur inférieure, vous fournissez le nombre 1. Pour la valeur supérieure, vous utilisez COUNTA ou ROWS pour obtenir le nombre total de lignes. En conséquence, RANDBETWEEN renvoie un nombre aléatoire compris entre 1 et le nombre total de lignes dans votre jeu de données. Ce nombre va dans la colonne numéro de rang de la fonction INDEX lui indiquant quelle ligne choisir. Pour la fonction numéro de colonne nous utilisons 1 puisque nous voulons extraire une valeur de la première colonne.

    Remarque : cette méthode fonctionne bien pour sélectionner une cellule aléatoire Si votre échantillon est censé inclure plusieurs cellules, la formule ci-dessus peut renvoyer plusieurs occurrences de la même valeur car la fonction RANDBETWEEN n'est pas exempte de doublons. C'est notamment le cas lorsque vous choisissez un échantillon relativement important dans une liste relativement petite. L'exemple suivant montre comment effectuer une sélection aléatoire dans Excel sans doublons.

    Comment effectuer une sélection aléatoire dans Excel sans doublons ?

    Il existe plusieurs façons de sélectionner des données aléatoires sans doublons dans Excel. En général, vous utilisez la fonction RAND pour attribuer un nombre aléatoire à chaque cellule, puis vous sélectionnez quelques cellules à l'aide d'une formule Index Rank.

    Avec la liste de noms dans les cellules A2:A16, veuillez suivre les étapes suivantes pour extraire quelques noms au hasard :

    1. Entrez la formule Rand en B2, et copiez-la dans la colonne :

    =RAND()

  • Mettez la formule ci-dessous dans C2 pour extraire une valeur aléatoire de la colonne A :
  • =INDEX($A$2:$A$16, RANK(B2,$B$2:$B$16), 1)

  • Copiez la formule ci-dessus dans autant de cellules que de valeurs aléatoires que vous souhaitez sélectionner. Dans notre cas, nous copions la formule dans quatre cellules supplémentaires (C2:C6).
  • Et voilà, cinq noms aléatoires sont extraits sans doublons :

    Comment fonctionne cette formule

    Comme dans l'exemple précédent, vous utilisez la fonction INDEX pour extraire une valeur de la colonne A en fonction d'une coordonnée de ligne aléatoire. Dans ce cas, il faut deux fonctions différentes pour l'obtenir :

    • La formule RAND remplit la colonne B avec des nombres aléatoires.
    • La fonction RANK renvoie le rang d'un nombre aléatoire dans la même ligne. Par exemple, RANK(B2,$B$2:$B$16) dans la cellule C2 obtient le rang du nombre en B2. Lorsqu'elle est copiée en C3, la référence relative B2 devient B3 et renvoie le rang du nombre en B3, et ainsi de suite.
    • Le nombre retourné par RANK est envoyé à la fonction numéro de rang de la fonction INDEX, de sorte qu'elle choisit la valeur de cette ligne. Dans la fonction numéro de colonne vous fournissez 1 parce que vous voulez extraire une valeur de la première colonne.

    Un mot d'avertissement ! Comme le montre la capture d'écran ci-dessus, notre sélection aléatoire Excel ne contient que des valeurs uniques. Mais théoriquement, il y a une faible chance que des doublons apparaissent dans votre échantillon. Voici pourquoi : sur un très grand ensemble de données, RAND peut générer des nombres aléatoires en double, et RANK retournera le même rang pour ces nombres. Personnellement, je n'ai jamais obtenu de doublons lors de mes tests, mais en théorie, une telle probabilitéexiste.

    Si vous recherchez une formule infaillible pour obtenir une sélection aléatoire avec uniquement des valeurs uniques, utilisez la combinaison RANK + COUNTIF ou RANK.EQ + COUNTIF au lieu de RANK. Pour une explication détaillée de la logique, veuillez consulter la section Classement unique dans Excel.

    La formule complète est un peu lourde, mais 100% sans doublon :

    =INDEX($A$2:$A$16, RANK.EQ(B2, $B$2:$B$16) + COUNTIF($B$2:B2, B2) - 1, 1)

    Notes :

    • Comme la fonction RANDBETWEEN, la fonction RAND d'Excel génère également de nouveaux nombres aléatoires à chaque nouveau calcul de votre feuille de calcul, ce qui entraîne une modification de la sélection aléatoire. Pour que votre échantillon reste inchangé, copiez-le et collez-le ailleurs comme valeurs ( Pâte Spécial > ; Valeurs ).
    • Si le même nom (nombre, date ou toute autre valeur) apparaît plus d'une fois dans votre ensemble de données original, un échantillon aléatoire peut également contenir plusieurs occurrences de la même valeur.

    D'autres moyens d'obtenir une sélection aléatoire sans répétitions dans Excel 365 - 2010 sont décrits ici : Comment obtenir un échantillon aléatoire dans Excel sans doublons.

    Comment sélectionner des lignes aléatoires dans Excel

    Si votre feuille de calcul contient plus d'une colonne de données, vous pouvez sélectionner un échantillon aléatoire de la manière suivante : attribuez un nombre aléatoire à chaque ligne, triez ces nombres et sélectionnez le nombre de lignes requis.

    1. Insérez une nouvelle colonne à droite ou à gauche de votre tableau (colonne D dans cet exemple).
    2. Dans la première cellule de la colonne insérée, à l'exclusion des en-têtes de colonne, entrez la formule RAND : =RAND()
    3. Double-cliquez sur la poignée de remplissage pour copier la formule vers le bas de la colonne. Vous obtiendrez ainsi un nombre aléatoire attribué à chaque ligne.
    4. Trier les nombres aléatoires du plus grand au plus petit (un tri dans l'ordre croissant déplacerait les en-têtes de colonne au bas du tableau, assurez-vous donc de trier dans l'ordre décroissant). Pour cela, rendez-vous dans la section Données tab> ; Trier et filtrer Excel va automatiquement étendre la sélection et trier les lignes entières dans un ordre aléatoire.

      Si vous n'êtes pas satisfait de la répartition aléatoire de votre tableau, cliquez à nouveau sur le bouton de tri pour le modifier. Pour obtenir des instructions détaillées, consultez la section Comment effectuer un tri aléatoire dans Excel.

    5. Enfin, sélectionnez le nombre de lignes nécessaires pour votre échantillon, copiez-les et collez-les où vous voulez.

    Pour examiner de plus près les formules abordées dans ce tutoriel, nous vous invitons à télécharger notre classeur type pour Excel Random Selection.

    Comment effectuer une sélection aléatoire dans Excel avec l'outil Randomize ?

    Maintenant que vous connaissez une poignée de formules pour obtenir un échantillon aléatoire dans Excel, voyons comment vous pouvez obtenir le même résultat en un clic de souris.

    Avec le générateur aléatoire pour Excel inclus dans notre Ultimate Suite, voici ce que vous faites :

    1. Sélectionnez n'importe quelle cellule de votre tableau.
    2. Allez à la Outils Ablebits tab> ; Utilitaires et cliquez sur Randomiser > ; Sélectionner aléatoirement :

  • Dans le volet de l'add-in, choisissez ce qui doit être sélectionné : des lignes aléatoires, des colonnes aléatoires ou des cellules aléatoires.
  • Spécifiez le nombre ou le pourcentage pour la taille d'échantillon souhaitée.
  • Cliquez sur le bouton Sélectionnez bouton. C'est fait !
  • Par exemple, voici comment nous pouvons sélectionner 5 lignes aléatoires dans notre ensemble de données échantillon :

    Et vous obtiendrez une sélection aléatoire dans une seconde :

    Maintenant, vous pouvez appuyer sur Ctrl + C pour copier votre échantillon aléatoire, puis sur Ctrl + V pour le coller à un emplacement dans la même feuille ou dans une autre.

    Si vous souhaitez tester l'outil Randomize dans vos feuilles de calcul, téléchargez la version d'essai d'Ultimate Suite ci-dessous. Si vous utilisez les feuilles de calcul Google, notre générateur de hasard pour Google Sheets peut vous être utile.

    Téléchargements disponibles

    Sélection d'un échantillon aléatoire - exemples de formules (fichier .xlsx)

    Ultimate Suite - version d'essai (fichier .exe)

    Michael Brown est un passionné de technologie passionné par la simplification de processus complexes à l'aide d'outils logiciels. Avec plus d'une décennie d'expérience dans l'industrie de la technologie, il a perfectionné ses compétences dans Microsoft Excel et Outlook, ainsi que dans Google Sheets et Docs. Le blog de Michael est dédié au partage de ses connaissances et de son expertise avec les autres, en fournissant des conseils et des tutoriels faciles à suivre pour améliorer la productivité et l'efficacité. Que vous soyez un professionnel chevronné ou un débutant, le blog de Michael offre des informations précieuses et des conseils pratiques pour tirer le meilleur parti de ces outils logiciels essentiels.