skytimetravel.net

J'ai un fichier csv comme ceci: column1 column2 john kerry adam stephenson ashley hudson etc.. Je veux supprimer les doublons à partir de ce fichier, pour obtenir que: J'ai écrit ce script qui supprime les doublons en fonction lastnames, mais j'ai besoin de supprimer les doublons en fonction lastnames ET prénom. import csv reader = csv. reader ( open ( '', 'r'), delimiter = ', ') writer = csv. writer ( open ( '', 'w'), delimiter = ', ') lastnames = set () for row in reader: if row [ 1] not in lastnames: writer. Traiter les doublons d'un fichier. par Vaslyn - OpenClassrooms. writerow ( row) lastnames. add ( row [ 1]) "J'ai écrit ce script qui supprime les doublons basés sur des noms, mais j'ai besoin de supprimer les doublons basée sur le nom ET prénom". Je suis un peu perdu ici. Quand vous dites le nom voulez-vous dire un prénom, un nom ou d'un enchaînement? Votre script ne fonctionne que sur les noms de famille. Désolé d'être pas claire, je veux supprimer les doublons en fonction lastnames (colonne2) et firstnames (colonne1) Original L'auteur Reveclair | 2012-10-12

Supprimer Les Doublons Python Youtube

15 janvier 2014 à 21:48:15 Oui et mieux encore, utiliser writelines, mais je ne suis pas sûr que ça soit plus efficace que de passer par un Set vide, car tu charges tout le fichier dans une liste, puis ensuite tu élimines les doublons dans un Set. Fonction permettant de supprimer de manière récursive des doublons adjacents dans une chaîne - python, python-2.7, récursivité. Je n'ai pas fais le test, mais dans les deux cas, ça semble suffire, donc file. writelines(lines) - Edité par Anonyme 15 janvier 2014 à 21:51:01 15 janvier 2014 à 22:09:38 De toute façon, les fichiers ne font pas 700Mo^^ mais merci de l'intérêt que vous y portez, je vais regarder vos codes demain 15 janvier 2014 à 23:09:56 fred1599 à écrit: Oui et mieux encore, utiliser writelines, mais je ne suis pas sûr que ça soit plus efficace que de passer par un Set vide, car tu charges tout le fichier dans une liste, puis ensuite tu élimines les doublons dans un Set. Effectivement, ce doit être plus optimal d'ajouter au fur et à mesure les lignes du fichier dans un set que de passer par l'intermédiaire d'une liste. En tous cas niveau mémoire c'est sûr.

Supprimer Les Doublons Python Programming

df. groupby ( 'A', as_index = False)[ 'B']. max () Façon la plus simple de le faire: # First you need to sort this DF as Column A as ascending and column B as descending # Then you can drop the duplicate values in A column # Optional - you can reset the index and get the nice data frame again # I'm going to show you all in one step. d = { 'A': [ 1, 1, 2, 3, 1, 2, 3, 1], 'B': [ 30, 40, 50, 42, 38, 30, 25, 32]} df = pd. DataFrame ( data = d) df 0 1 30 1 1 40 2 2 50 3 3 42 4 1 38 5 2 30 6 3 25 7 1 32 df = df. sort_values ([ 'A', 'B'], ascending =[ True, False]). drop_duplicates ([ 'A']). reset_index ( drop = True) 0 1 40 1 2 50 2 3 42 cela fonctionne également: a = pd. Supprimer les doublons python youtube. DataFrame ({ 'A': a. groupby ( 'A')[ 'B']. max (). index, 'B': a. groupby ( 'A') [ 'B']. values}) Je ne vais pas vous donner la réponse complète (je ne pense pas que vous cherchiez de toute façon l'analyse et l'écriture dans le fichier), mais un indice pivot devrait suffire: utilisez la set() fonction de python, puis sorted() ou () couplé avec.

Supprimer Les Doublons Python En

JulienJust Messages postés 139 Date d'inscription mardi 25 juin 2013 Statut Membre Dernière intervention 2 septembre 2014 17 21 août 2013 à 10:26 Pour les curieux, voici mon script-réponse.

Effacer les doublons dans une table n'est pas une tâche très souvent faite, ce qui fait que l'on oublie facilement (du moins, c'est mon cas). Cet article est juste un moyen de me le rappeler:-) Disons que les doublons de la table users soient identifiés avec les colonnes name, parent_id et country_id, voici la requête SQL à exécuter: 1 2 3 4 DELETE FROM users WHERE id NOT IN ( SELECT max(id) FROM users GROUP BY name, parent_id, country_id) La requête recherche l' id le plus haut parmis les entrées de la table qui ont les même valeurs dans les champs spécifiés. Puis tout les entrées qui n'ont pas cet id sont supprimé.

Gressy Maison A Vendre