Aperçu
sort -u trie les données d'entrée par ordre croissant tout en supprimant toutes les lignes dupliquées, ne conservant qu'une seule occurrence. Ceci est utile dans diverses situations telles que l'analyse de fichiers journaux, la création de listes d'éléments uniques et le nettoyage de données.
Caractéristiques principales
- Trie les données et supprime automatiquement les lignes dupliquées
- Peut être utilisé avec la sortie d'autres commandes via un pipe (|)
- Prend en charge divers critères de tri tels que les nombres et les champs spécifiques
- Efficacité dans le traitement de fichiers volumineux
Options principales
Présentation des options couramment utilisées avec -u ou qui complètent le comportement de sort -u.
Suppression des doublons et comportement de base
Critères de tri
Sortie et autres
Commande générée :
Essayez de combiner les commandes.
Description:
`sort` Exécute la commande.
Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.
Exemples d'utilisation
Apprenez à utiliser la commande sort -u grâce à divers exemples d'utilisation.
Trier et supprimer les doublons du contenu d'un fichier
sort -u file.txt
Trie le contenu de file.txt, supprime les lignes dupliquées et affiche le résultat sur la sortie standard.
Traitement de l'entrée via un pipe
cat file.txt | sort -u
Reçoit la sortie d'une autre commande, la trie et supprime les doublons. Par exemple, transmet le contenu d'un fichier avec la commande `cat`.
Trier et supprimer les doublons par ordre numérique
sort -nu numbers.txt
Reconnaît les nombres du fichier numbers.txt comme des valeurs numériques, les trie et supprime les doublons.
Trier et supprimer les doublons par champ spécifique
sort -t',' -uk2 data.csv
Trie le fichier data.csv, délimité par des virgules (`,`), en fonction du deuxième champ et supprime les doublons.
Enregistrer le résultat dans un nouveau fichier
sort -u input.txt -o output.txt
Enregistre le résultat trié et débarrassé des doublons dans le fichier output.txt.
Conseils et précautions
Fournit des conseils utiles et des précautions lors de l'utilisation de la commande sort -u.
Différence entre sort -u et uniq
- sort -u: Trie l'intégralité de l'entrée puis supprime les doublons. Par conséquent, il supprime tous les doublons, où qu'ils se trouvent dans le fichier.
- uniq: Supprime uniquement les doublons entre lignes adjacentes. Pour utiliser `uniq`, vous devez d'abord trier les données avec la commande `sort`. `sort -u` combine ces deux étapes de manière pratique.
Sensibilité à la casse
- Comportement par défaut: Par défaut, sort -u est sensible à la casse et traite 'Apple' et 'apple' comme des lignes distinctes.
- Ignorer la casse: Pour ignorer la casse et supprimer les doublons, utilisez l'option `-f` (fold-case) conjointement. Exemple : `sort -uf file.txt`
Performance de traitement des fichiers volumineux
- Utilisation de la mémoire: Lors du traitement de fichiers volumineux, sort peut utiliser une quantité importante de mémoire système. Vous pouvez ajuster la taille du tampon mémoire à utiliser avec l'option `-S`. (Exemple : `-S 50%` utilise 50% de la mémoire disponible)
- Fichiers temporaires: Si la mémoire est insuffisante, sort crée des fichiers temporaires. Vous pouvez spécifier le répertoire de stockage des fichiers temporaires avec l'option `-T`. (Exemple : `-T /tmp`)