Startseite > Textverarbeitung & Suche > sort

sort -u: Sortieren und Duplikate entfernen

Der Befehl sort -u sortiert den Inhalt einer Textdatei oder der Standardeingabe und gibt nur eindeutige Zeilen aus, indem doppelte Zeilen entfernt werden. Dies ist sehr nützlich, um Duplikate aus Listen zu entfernen und Daten sauber zu bereinigen.

Übersicht

sort -u sortiert die eingegebenen Daten aufsteigend und entfernt gleichzeitig alle doppelten Zeilen, wobei nur eine Kopie übrig bleibt. Dies ist in verschiedenen Situationen nützlich, wie z. B. bei der Analyse von Protokolldateien, der Erstellung von Listen eindeutiger Elemente oder der Datenbereinigung.

Hauptmerkmale

  • Sortiert Daten und entfernt automatisch doppelte Zeilen
  • Kann über Pipes (|) mit der Ausgabe anderer Befehle verknüpft werden
  • Unterstützt verschiedene Sortierkriterien wie Zahlen, bestimmte Felder usw.
  • Effiziente Verarbeitung großer Dateien

Wichtige Optionen

Hier werden verschiedene Optionen des Befehls sort vorgestellt, die häufig zusammen mit -u verwendet werden oder die Funktionalität von sort -u ergänzen.

Duplikate entfernen und Standardverhalten

Sortierkriterien

Ausgabe und Sonstiges

Erzeugter Befehl:

Kombinieren Sie die Befehle.

Beschreibung:

`sort` Führen Sie den Befehl aus.

Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.

Anwendungsbeispiele

Lernen Sie die tatsächliche Verwendung durch verschiedene Anwendungsbeispiele des Befehls sort -u kennen.

Dateinhalt sortieren und Duplikate entfernen

sort -u file.txt

Sortiert den Inhalt von file.txt, entfernt doppelte Zeilen und gibt sie auf der Standardausgabe aus.

Eingabeverarbeitung über Pipe

cat file.txt | sort -u

Nimmt die Ausgabe eines anderen Befehls entgegen, sortiert sie und entfernt Duplikate. Zum Beispiel wird der Inhalt einer Datei mit dem Befehl `cat` übergeben.

Sortieren und Duplikate entfernen nach numerischem Kriterium

sort -nu numbers.txt

Die Zahlen in der Datei numbers.txt werden als numerische Werte erkannt, sortiert und Duplikate werden entfernt.

Sortieren und Duplikate entfernen nach einem bestimmten Feld

sort -t',' -uk2 data.csv

Sortiert die durch Kommas (`,`) getrennte Datei data.csv nach dem zweiten Feld und entfernt Duplikate.

Ergebnis in einer neuen Datei speichern

sort -u input.txt -o output.txt

Speichert das sortierte und von Duplikaten bereinigte Ergebnis in der Datei output.txt.

Tipps & Hinweise

Nützliche Tipps und Hinweise zur Verwendung des Befehls sort -u.

Unterschied zwischen sort -u und uniq

  • sort -u: Sortiert die gesamte Eingabe und entfernt dann Duplikate. Daher werden alle Duplikate entfernt, unabhängig davon, wo sie sich in der Datei befinden.
  • uniq: Entfernt nur Duplikate von benachbarten Zeilen. Um `uniq` zu verwenden, müssen Sie zuerst die Daten mit dem Befehl `sort` sortieren. `sort -u` ist eine praktische Methode, die diese beiden Schritte gleichzeitig ausführt.

Groß-/Kleinschreibung

  • Standardverhalten: sort -u unterscheidet standardmäßig zwischen Groß- und Kleinschreibung und behandelt 'Apple' und 'apple' als unterschiedliche Zeilen.
  • Groß-/Kleinschreibung ignorieren: Um Duplikate zu entfernen und dabei die Groß-/Kleinschreibung zu ignorieren, verwenden Sie die Option `-f` (fold-case). Beispiel: `sort -uf file.txt`

Leistung bei der Verarbeitung großer Dateien

  • Speichernutzung: Beim Verarbeiten großer Dateien kann sort viel Systemspeicher beanspruchen. Sie können die Leistung durch Angabe der zu verwendenden Speicherpuffergröße mit der Option `-S` anpassen. (z. B. `-S 50%` verwendet 50 % des verfügbaren Speichers)
  • Temporäre Dateien: Wenn der Speicher knapp wird, erstellt sort temporäre Dateien. Sie können das Verzeichnis für temporäre Dateien mit der Option `-T` angeben. (z. B. `-T /tmp`)

Gleiche Kategorie Befehle