Aperçu
`uniq` est souvent utilisé en combinaison avec la commande `sort` via un pipe (|) pour traiter efficacement les lignes en double dans des données triées. L'option `-c` permet de compter facilement les lignes en double.
Caractéristiques principales
- Traitement des lignes en double consécutives
- Comptage des lignes en double (-c)
- Option d'ignorance de la casse (-i)
- Comparaison ignorant certains champs ou caractères
Options principales
Fonctionnalités
Méthodes de comparaison
Commande générée :
Essayez de combiner les commandes.
Description:
`uniq` Exécute la commande.
Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.
Exemples d'utilisation
Calculer la fréquence des mots dans un fichier
sort words.txt | uniq -c
Compte et affiche la fréquence de chaque mot (ligne) dans le fichier `words.txt`. Comme `uniq` ne traite que les doublons consécutifs, il faut d'abord trier le fichier avec `sort` pour rendre tous les doublons adjacents.
Trouver les lignes les plus fréquentes dans un fichier journal
cat log.txt | sort | uniq -c | sort -nr
Compte les lignes en double dans un fichier journal, puis trie les résultats par ordre décroissant en fonction du nombre pour afficher les lignes les plus fréquentes en premier.
Compter les lignes en double en ignorant la casse
echo -e "Apple\napple\nBanana\napple" | sort | uniq -ci
Compte et affiche le nombre de lignes en double à partir de l'entrée standard, en considérant 'Apple' et 'apple' comme identiques.
Compter les lignes en double en ignorant un champ spécifique
sort -k2 data.txt | uniq -f 1 -c
Ignore le premier champ du fichier et compare à partir du deuxième champ pour compter les lignes en double. (Par exemple, si `data.txt` contient `ID1 apple`, `ID2 apple`, 'apple' sera compté comme 2).
Conseils et précautions
La commande `uniq` traite par défaut uniquement les lignes qui sont consécutivement en double. Par conséquent, pour supprimer ou compter les doublons dans l'ensemble du fichier, vous devez d'abord trier les lignes à l'aide de la commande `sort`.
Conseils d'utilisation
- Utilisation avec sort: `uniq` ne traite que les doublons consécutifs, donc pour traiter les doublons de tout le fichier, vous devez d'abord trier avec `sort`. Exemple : `sort file.txt | uniq -c`
- Trouver les éléments les plus fréquents: Vous pouvez utiliser `sort -nr` après `uniq -c` pour trier les éléments les plus fréquents par ordre décroissant. Exemple : `sort file.txt | uniq -c | sort -nr`
- Considérations de performance: Pour les fichiers très volumineux, il faut tenir compte de l'utilisation de la mémoire par `sort` et `uniq`. Si nécessaire, vous pouvez spécifier un répertoire temporaire avec l'option `-T` de `sort`.