Startpagina > Tekstverwerking en zoeken > sort

sort -u: Sorteren en duplicaten verwijderen

Het sort -u commando sorteert de inhoud van tekstbestanden of standaardinvoer en verwijdert dubbele regels, zodat alleen unieke regels worden weergegeven. Het is zeer nuttig voor het verwijderen van duplicaten en het opschonen van lijsten met gegevens.

Overzicht

sort -u sorteert de invoergegevens oplopend en verwijdert tegelijkertijd alle dubbele regels, waarbij slechts één exemplaar behouden blijft. Dit wordt gebruikt in diverse situaties, zoals logbestandanalyse, het genereren van lijsten met unieke items en gegevensopschoning.

Belangrijkste kenmerken

  • Sorteert gegevens en verwijdert automatisch dubbele regels
  • Kan worden gekoppeld aan de uitvoer van andere commando's via pipes (|)
  • Ondersteunt verschillende sorteercriteria, zoals getallen en specifieke velden
  • Efficiënt voor het verwerken van grote bestanden

Belangrijkste opties

Hier worden de belangrijkste opties van het sort commando geïntroduceerd die vaak worden gebruikt in combinatie met -u of die de werking van sort -u aanvullen.

Duplicaten verwijderen en basisgedrag

Sorteercriteria

Uitvoer en overige

Gegenereerde opdracht:

Probeer de opdrachtcombinaties.

Uitleg:

`sort` Voer het commando uit.

Combineer deze opties en voer de opdracht virtueel uit met de AI.

Gebruiksvoorbeelden

Leer de werking van het sort -u commando door middel van diverse gebruiksvoorbeelden.

Bestandsinhoud sorteren en duplicaten verwijderen

sort -u file.txt

Sorteert de inhoud van file.txt, verwijdert dubbele regels en toont het resultaat op de standaarduitvoer.

Invoer verwerken via pipe

cat file.txt | sort -u

Ontvangt de uitvoer van een ander commando, sorteert deze en verwijdert duplicaten. Bijvoorbeeld, het doorgeven van de bestandsinhoud met het `cat` commando.

Sorteren op numerieke waarde en duplicaten verwijderen

sort -nu numbers.txt

Herkent de getallen in het bestand numbers.txt als numerieke waarden, sorteert ze en verwijdert duplicaten.

Sorteren op specifiek veld en duplicaten verwijderen

sort -t',' -uk2 data.csv

Sorteert het door komma's (`,`) gescheiden bestand data.csv op basis van het tweede veld en verwijdert duplicaten.

Resultaat opslaan in een nieuw bestand

sort -u input.txt -o output.txt

Slaat het gesorteerde en gededupliceerde resultaat op in het bestand output.txt.

Tips & Aandachtspunten

Hier vindt u nuttige tips en aandachtspunten bij het gebruik van het sort -u commando.

Verschil tussen sort -u en uniq

  • sort -u: Sorteert de gehele invoer en verwijdert daarna duplicaten. Hierdoor worden alle duplicaten verwijderd, ongeacht hun positie in het bestand.
  • uniq: Verwijdert alleen duplicaten van aangrenzende regels. Om `uniq` te gebruiken, moet u eerst de gegevens sorteren met het `sort` commando. `sort -u` is een handige manier om deze twee stappen in één keer uit te voeren.

Hoofdlettergevoeligheid

  • Standaardgedrag: sort -u is standaard hoofdlettergevoelig, wat betekent dat 'Apple' en 'apple' als verschillende regels worden beschouwd.
  • Hoofdletterongevoelig maken: Gebruik de optie `-f` (fold-case) om hoofdletters en kleine letters te negeren bij het verwijderen van duplicaten. Bijvoorbeeld: `sort -uf file.txt`

Prestaties bij grote bestanden

  • Geheugengebruik: Bij het verwerken van grote bestanden kan sort veel systeemsgeheugen gebruiken. U kunt de prestaties aanpassen door de grootte van de geheugenbuffer op te geven met de optie `-S`. (Bijv.: `-S 50%` gebruikt 50% van het beschikbare geheugen)
  • Tijdelijke bestanden: Als het geheugen ontoereikend is, maakt sort tijdelijke bestanden aan. U kunt de map voor tijdelijke bestanden specificeren met de optie `-T`. (Bijv.: `-T /tmp`)

Hétzelfde categoriecommando