Übersicht
sort -u sortiert die eingegebenen Daten aufsteigend und entfernt gleichzeitig alle doppelten Zeilen, wobei nur eine Kopie übrig bleibt. Dies ist in verschiedenen Situationen nützlich, wie z. B. bei der Analyse von Protokolldateien, der Erstellung von Listen eindeutiger Elemente oder der Datenbereinigung.
Hauptmerkmale
- Sortiert Daten und entfernt automatisch doppelte Zeilen
- Kann über Pipes (|) mit der Ausgabe anderer Befehle verknüpft werden
- Unterstützt verschiedene Sortierkriterien wie Zahlen, bestimmte Felder usw.
- Effiziente Verarbeitung großer Dateien
Wichtige Optionen
Hier werden verschiedene Optionen des Befehls sort vorgestellt, die häufig zusammen mit -u verwendet werden oder die Funktionalität von sort -u ergänzen.
Duplikate entfernen und Standardverhalten
Sortierkriterien
Ausgabe und Sonstiges
Erzeugter Befehl:
Kombinieren Sie die Befehle.
Beschreibung:
`sort` Führen Sie den Befehl aus.
Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.
Anwendungsbeispiele
Lernen Sie die tatsächliche Verwendung durch verschiedene Anwendungsbeispiele des Befehls sort -u kennen.
Dateinhalt sortieren und Duplikate entfernen
sort -u file.txt
Sortiert den Inhalt von file.txt, entfernt doppelte Zeilen und gibt sie auf der Standardausgabe aus.
Eingabeverarbeitung über Pipe
cat file.txt | sort -u
Nimmt die Ausgabe eines anderen Befehls entgegen, sortiert sie und entfernt Duplikate. Zum Beispiel wird der Inhalt einer Datei mit dem Befehl `cat` übergeben.
Sortieren und Duplikate entfernen nach numerischem Kriterium
sort -nu numbers.txt
Die Zahlen in der Datei numbers.txt werden als numerische Werte erkannt, sortiert und Duplikate werden entfernt.
Sortieren und Duplikate entfernen nach einem bestimmten Feld
sort -t',' -uk2 data.csv
Sortiert die durch Kommas (`,`) getrennte Datei data.csv nach dem zweiten Feld und entfernt Duplikate.
Ergebnis in einer neuen Datei speichern
sort -u input.txt -o output.txt
Speichert das sortierte und von Duplikaten bereinigte Ergebnis in der Datei output.txt.
Tipps & Hinweise
Nützliche Tipps und Hinweise zur Verwendung des Befehls sort -u.
Unterschied zwischen sort -u und uniq
- sort -u: Sortiert die gesamte Eingabe und entfernt dann Duplikate. Daher werden alle Duplikate entfernt, unabhängig davon, wo sie sich in der Datei befinden.
- uniq: Entfernt nur Duplikate von benachbarten Zeilen. Um `uniq` zu verwenden, müssen Sie zuerst die Daten mit dem Befehl `sort` sortieren. `sort -u` ist eine praktische Methode, die diese beiden Schritte gleichzeitig ausführt.
Groß-/Kleinschreibung
- Standardverhalten: sort -u unterscheidet standardmäßig zwischen Groß- und Kleinschreibung und behandelt 'Apple' und 'apple' als unterschiedliche Zeilen.
- Groß-/Kleinschreibung ignorieren: Um Duplikate zu entfernen und dabei die Groß-/Kleinschreibung zu ignorieren, verwenden Sie die Option `-f` (fold-case). Beispiel: `sort -uf file.txt`
Leistung bei der Verarbeitung großer Dateien
- Speichernutzung: Beim Verarbeiten großer Dateien kann sort viel Systemspeicher beanspruchen. Sie können die Leistung durch Angabe der zu verwendenden Speicherpuffergröße mit der Option `-S` anpassen. (z. B. `-S 50%` verwendet 50 % des verfügbaren Speichers)
- Temporäre Dateien: Wenn der Speicher knapp wird, erstellt sort temporäre Dateien. Sie können das Verzeichnis für temporäre Dateien mit der Option `-T` angeben. (z. B. `-T /tmp`)