accueil > Traitement et recherche de texte > sort

sort -u : Trier et supprimer les doublons

La commande sort -u trie le contenu d'un fichier texte ou de l'entrée standard, puis supprime les lignes dupliquées pour n'afficher que les lignes uniques. Elle est très utile pour éliminer les doublons et nettoyer les listes de données.

Aperçu

sort -u trie les données d'entrée par ordre croissant tout en supprimant toutes les lignes dupliquées, ne conservant qu'une seule occurrence. Ceci est utile dans diverses situations telles que l'analyse de fichiers journaux, la création de listes d'éléments uniques et le nettoyage de données.

Caractéristiques principales

  • Trie les données et supprime automatiquement les lignes dupliquées
  • Peut être utilisé avec la sortie d'autres commandes via un pipe (|)
  • Prend en charge divers critères de tri tels que les nombres et les champs spécifiques
  • Efficacité dans le traitement de fichiers volumineux

Options principales

Présentation des options couramment utilisées avec -u ou qui complètent le comportement de sort -u.

Suppression des doublons et comportement de base

Critères de tri

Sortie et autres

Commande générée :

Essayez de combiner les commandes.

Description:

`sort` Exécute la commande.

Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.

Exemples d'utilisation

Apprenez à utiliser la commande sort -u grâce à divers exemples d'utilisation.

Trier et supprimer les doublons du contenu d'un fichier

sort -u file.txt

Trie le contenu de file.txt, supprime les lignes dupliquées et affiche le résultat sur la sortie standard.

Traitement de l'entrée via un pipe

cat file.txt | sort -u

Reçoit la sortie d'une autre commande, la trie et supprime les doublons. Par exemple, transmet le contenu d'un fichier avec la commande `cat`.

Trier et supprimer les doublons par ordre numérique

sort -nu numbers.txt

Reconnaît les nombres du fichier numbers.txt comme des valeurs numériques, les trie et supprime les doublons.

Trier et supprimer les doublons par champ spécifique

sort -t',' -uk2 data.csv

Trie le fichier data.csv, délimité par des virgules (`,`), en fonction du deuxième champ et supprime les doublons.

Enregistrer le résultat dans un nouveau fichier

sort -u input.txt -o output.txt

Enregistre le résultat trié et débarrassé des doublons dans le fichier output.txt.

Conseils et précautions

Fournit des conseils utiles et des précautions lors de l'utilisation de la commande sort -u.

Différence entre sort -u et uniq

  • sort -u: Trie l'intégralité de l'entrée puis supprime les doublons. Par conséquent, il supprime tous les doublons, où qu'ils se trouvent dans le fichier.
  • uniq: Supprime uniquement les doublons entre lignes adjacentes. Pour utiliser `uniq`, vous devez d'abord trier les données avec la commande `sort`. `sort -u` combine ces deux étapes de manière pratique.

Sensibilité à la casse

  • Comportement par défaut: Par défaut, sort -u est sensible à la casse et traite 'Apple' et 'apple' comme des lignes distinctes.
  • Ignorer la casse: Pour ignorer la casse et supprimer les doublons, utilisez l'option `-f` (fold-case) conjointement. Exemple : `sort -uf file.txt`

Performance de traitement des fichiers volumineux

  • Utilisation de la mémoire: Lors du traitement de fichiers volumineux, sort peut utiliser une quantité importante de mémoire système. Vous pouvez ajuster la taille du tampon mémoire à utiliser avec l'option `-S`. (Exemple : `-S 50%` utilise 50% de la mémoire disponible)
  • Fichiers temporaires: Si la mémoire est insuffisante, sort crée des fichiers temporaires. Vous pouvez spécifier le répertoire de stockage des fichiers temporaires avec l'option `-T`. (Exemple : `-T /tmp`)

Commandes de la même catégorie