Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’assistance de donnees OkCupid)

Quelques astuces simples mais indispensables que vous ne connaissiez probablement jamais

Correctement que le possible le plus simple de creer une table de frequences pour votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de cette operation parait plutot basique. Nous pouvons le rendre plus informatif en ajustant nos parametres booleens d’la methode normalize , sort , ascending , et dropna , ou en regroupant nos valeurs (si elles sont numeriques) dans des bacs. Cependant, les laternatives ici paraissent assez limitees, donc pour ameliorer visuellement la table de frequences resultante, nous pouvons envisager des astuces simples mais utiles, telles que le chainage de methodes, la personnalisation du post, l’ajout du % symbole a chaque valeur de frequence et l’utilisation d’une puissance de jolie- impression.

Dans ce billet, nous allons experimenter un ensemble de donnees Kaggle contenant des precisions sur l’age, le sexe, l’emplacement, l’education, etc., pour 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour les besoins, cependant, nous n’utiliserons que les donnees i  propos des statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence d’origine Afin de les statuts des utilisateurs :

( Note : ci-apres, nous allons laisser l’ensemble des autres parametres d’la value_counts() technique par defaut, cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour les besoins, choisir ou non ces parametres ne peu importe.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il va ne point etre clair que nos nombres constituent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau avec le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une solution de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, puis a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour cela, nous allons utiliser la to_markdown() technique pandas qui necessite l’installation (que rarement l’import) du module tabulate ( pip install tabulate ).

Important : Afin de afficher correctement les resultats, la to_markdown() methode devra etre utilisee seulement a l’interieur une print() commande.

Montrons a nouveau la table de frequence d’etat de l’utilisateur appelee s_with_pct_symb , une telle fois comme une vraie table, en utilisant la syntaxe d’origine de to_markdown() . Comme precedemment, nous allons ajouter 1 titre en fourchus et appliquer le formatage f-string. Par souci de coherence, nous affecterons ci-apres la table de frequence a afficher a une variable appelee S » :

Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et est en mesure de avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. notamment, le format de tableau que nous avons decouvert plus haut s’appelle pipe , celui avec defaut pour des to_markdown() pandas methode. Curieux que concernant le package tabulate lui-meme, le format de tableau par defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des precisions de chaine via defaut (qui est left ). Les options possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne nullement en combinaison avec le format du tableau pretty .

Plats a emporter confortables

Bien que l’ensemble de Notre procedure pas a jamais ci-dessus ait necessite de multiples iterations et descriptions, nous trouverons ci-dessous des solutions de code finales pour 4 versions differentes de notre tableau des frequences pour profiles[‘status’] , tout cela en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans ce post, nous avons discute de quelques approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont tous sa value_counts() methode des pandas comme accessoire central, mais l’ensemble de vont au-dela et aboutissent a des representations plus percutantes. De plus, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture du article et que vous l’avez trouve utile. Merci d’avoir lu a tout un chacun, ainsi, bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pourrez trouver attractif aussi ces articles :

autor
Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos requeridos están marcados *

borrar formularioEnviar