Artikel mit ‘recode’ getagged

Textdateien von ISO-8859-1 nach utf8 umwandeln

Donnerstag, 21. August 2008

Mit den folgenden Zeilen wird im aktuellen Verzeichnis das Unterverzeichnis ./utf8_output angelegt.
Danach werden alle *.html Dateien nach utf8 umgewandelt und in diesem Format in das Verzeichnis ./utf8_output geschrieben. Der Schalter -d bewirkt, dass nur Umlaute bzw. nicht-ASCII Zeichen umkodiert werden. (z.B. für HTML/LaTeX)

mkdir utf8_output
for x in *.html
do recode -d ISO-8859-1..UTF-8 < $x > ./utf8_output/$x
done

Alternativ zu recode kann auch iconv genutzt werden.
Im nächsten Beispiel wurde zudem windows-1252 als vorliegender Zeichensatz angenommen.

for x in *.html
do
iconv -f windows-1252 -t utf-8 -o "utf8_output/$x" "$x"
done

Links:
The Recode reference manual