Artikel mit ‘Dateien’ getagged

Textdateien von ISO-8859-1 nach utf8 umwandeln

Donnerstag, 21. August 2008

Mit den folgenden Zeilen wird im aktuellen Verzeichnis das Unterverzeichnis ./utf8_output angelegt.
Danach werden alle *.html Dateien nach utf8 umgewandelt und in diesem Format in das Verzeichnis ./utf8_output geschrieben. Der Schalter -d bewirkt, dass nur Umlaute bzw. nicht-ASCII Zeichen umkodiert werden. (z.B. für HTML/LaTeX)

mkdir utf8_output
for x in *.html
do recode -d ISO-8859-1..UTF-8 < $x > ./utf8_output/$x
done

Alternativ zu recode kann auch iconv genutzt werden.
Im nächsten Beispiel wurde zudem windows-1252 als vorliegender Zeichensatz angenommen.

for x in *.html
do
iconv -f windows-1252 -t utf-8 -o "utf8_output/$x" "$x"
done

Links:
The Recode reference manual

Listen sortieren und zusammenfassen

Donnerstag, 21. August 2008

Der folgende Befehl:

cat *.dat | sort | uniq >>output.dat

durchläuft alle Dateien vom Typ *.dat im Verzeichnis, sortiert die gefundenen Zeilen alphabetisch und entfernt doppelte Einträge. Das Ergebnis wird in die Datei output.dat geschrieben.

Beispiel:
Die Verarbeitung folgender Dateien:

blumen.dat

Narzissen
Tulpen
Rosen
Orchideen
Lilien
Sonnenblumen

pflanzen.dat

Tannen
Tulpen
Kiefern
Orchideen
Eichen
Sonnenblumen

würde zu folgendem Ergebnis führen:

output.dat

Eichen
Kiefern
Lilien
Narzissen
Orchideen
Rosen
Sonnenblumen
Tannen
Tulpen

Download:
blumen.dat
pflanzen.dat
output.dat