uniq : supprimer et compter les lignes en double

Aperçu

`uniq` est souvent utilisé en combinaison avec la commande `sort` via un pipe (|) pour traiter efficacement les lignes en double dans des données triées. L'option `-c` permet de compter facilement les lignes en double.

Caractéristiques principales

Traitement des lignes en double consécutives
Comptage des lignes en double (-c)
Option d'ignorance de la casse (-i)
Comparaison ignorant certains champs ou caractères

Options principales

Fonctionnalités

Méthodes de comparaison

Commande générée :

Essayez de combiner les commandes.

Description:

`uniq` Exécute la commande.

Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.

Exemples d'utilisation

Calculer la fréquence des mots dans un fichier

sort words.txt | uniq -c

Compte et affiche la fréquence de chaque mot (ligne) dans le fichier `words.txt`. Comme `uniq` ne traite que les doublons consécutifs, il faut d'abord trier le fichier avec `sort` pour rendre tous les doublons adjacents.

Trouver les lignes les plus fréquentes dans un fichier journal

cat log.txt | sort | uniq -c | sort -nr

Compte les lignes en double dans un fichier journal, puis trie les résultats par ordre décroissant en fonction du nombre pour afficher les lignes les plus fréquentes en premier.

Compter les lignes en double en ignorant la casse

echo -e "Apple\napple\nBanana\napple" | sort | uniq -ci

Compte et affiche le nombre de lignes en double à partir de l'entrée standard, en considérant 'Apple' et 'apple' comme identiques.

Compter les lignes en double en ignorant un champ spécifique

sort -k2 data.txt | uniq -f 1 -c

Ignore le premier champ du fichier et compare à partir du deuxième champ pour compter les lignes en double. (Par exemple, si `data.txt` contient `ID1 apple`, `ID2 apple`, 'apple' sera compté comme 2).

Conseils et précautions

La commande `uniq` traite par défaut uniquement les lignes qui sont consécutivement en double. Par conséquent, pour supprimer ou compter les doublons dans l'ensemble du fichier, vous devez d'abord trier les lignes à l'aide de la commande `sort`.

Conseils d'utilisation

Utilisation avec sort: uniq ne traite que les doublons consécutifs, donc pour traiter les doublons de tout le fichier, vous devez d'abord trier avec sort. Exemple : sort file.txt | uniq -c
Trouver les éléments les plus fréquents: Vous pouvez utiliser sort -nr après uniq -c pour trier les éléments les plus fréquents par ordre décroissant. Exemple : sort file.txt | uniq -c | sort -nr
Considérations de performance: Pour les fichiers très volumineux, il faut tenir compte de l'utilisation de la mémoire par sort et uniq. Si nécessaire, vous pouvez spécifier un répertoire temporaire avec l'option -T de sort.