sort -u : Trier et supprimer les doublons

Aperçu

sort -u trie les données d'entrée par ordre croissant tout en supprimant toutes les lignes dupliquées, ne conservant qu'une seule occurrence. Ceci est utile dans diverses situations telles que l'analyse de fichiers journaux, la création de listes d'éléments uniques et le nettoyage de données.

Caractéristiques principales

Trie les données et supprime automatiquement les lignes dupliquées
Peut être utilisé avec la sortie d'autres commandes via un pipe (|)
Prend en charge divers critères de tri tels que les nombres et les champs spécifiques
Efficacité dans le traitement de fichiers volumineux

Options principales

Présentation des options couramment utilisées avec -u ou qui complètent le comportement de sort -u.

Suppression des doublons et comportement de base

Critères de tri

Sortie et autres

Commande générée :

Essayez de combiner les commandes.

Description:

`sort` Exécute la commande.

Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.

Exemples d'utilisation

Apprenez à utiliser la commande sort -u grâce à divers exemples d'utilisation.

Trier et supprimer les doublons du contenu d'un fichier

sort -u file.txt

Trie le contenu de file.txt, supprime les lignes dupliquées et affiche le résultat sur la sortie standard.

Traitement de l'entrée via un pipe

cat file.txt | sort -u

Reçoit la sortie d'une autre commande, la trie et supprime les doublons. Par exemple, transmet le contenu d'un fichier avec la commande `cat`.

Trier et supprimer les doublons par ordre numérique

sort -nu numbers.txt

Reconnaît les nombres du fichier numbers.txt comme des valeurs numériques, les trie et supprime les doublons.

Trier et supprimer les doublons par champ spécifique

sort -t',' -uk2 data.csv

Trie le fichier data.csv, délimité par des virgules (`,`), en fonction du deuxième champ et supprime les doublons.

Enregistrer le résultat dans un nouveau fichier

sort -u input.txt -o output.txt

Enregistre le résultat trié et débarrassé des doublons dans le fichier output.txt.

Conseils et précautions

Fournit des conseils utiles et des précautions lors de l'utilisation de la commande sort -u.

Différence entre sort -u et uniq

sort -u: Trie l'intégralité de l'entrée puis supprime les doublons. Par conséquent, il supprime tous les doublons, où qu'ils se trouvent dans le fichier.
uniq: Supprime uniquement les doublons entre lignes adjacentes. Pour utiliser `uniq`, vous devez d'abord trier les données avec la commande `sort`. `sort -u` combine ces deux étapes de manière pratique.

Sensibilité à la casse

Comportement par défaut: Par défaut, sort -u est sensible à la casse et traite 'Apple' et 'apple' comme des lignes distinctes.
Ignorer la casse: Pour ignorer la casse et supprimer les doublons, utilisez l'option `-f` (fold-case) conjointement. Exemple : `sort -uf file.txt`

Performance de traitement des fichiers volumineux

Utilisation de la mémoire: Lors du traitement de fichiers volumineux, sort peut utiliser une quantité importante de mémoire système. Vous pouvez ajuster la taille du tampon mémoire à utiliser avec l'option `-S`. (Exemple : `-S 50%` utilise 50% de la mémoire disponible)
Fichiers temporaires: Si la mémoire est insuffisante, sort crée des fichiers temporaires. Vous pouvez spécifier le répertoire de stockage des fichiers temporaires avec l'option `-T`. (Exemple : `-T /tmp`)