Unicode XML på NT?
Så vidt jeg kan se bruker Windows NT følgende knep for å se om en fil er UNICODE: Den setter inn hex FFFE (\"ÿþ\") først i fila for å markere at den er kodet i UNICODE.Dessverre bruker XML et annet knep: Alle XML-filer begynner med \"<?xml\". I unicode begynner det med 3C00 (\"< \", her er vist en slags ombytting, for 003C er unicode for \"<\"), i alle (?) andre tegnsett begynner det med 3C3F (\"<?\").
Spørsmålet: Hvordan får jeg fjernet de 16 uønskede bits i starten av fila, uten å ødelegge UNICODEingen av resten?
(Eksempel: http://lbk.olivant.fo/test/lada.html vises som unicode i IE på NT. Men, fordi den starter med \"ÿþ\" kan ikke W3C\'s validator forstå hvilket tegnsett det er:
http://validator.w3.org/check?uri=http%3A%2F%2Flbk.olivant.fo%2Ftest%2Flada.html
Og jeg kan lure IE og N4.75 til å tro at en streit tekstfil er UNICODE: http://lbk.olivant.fo/test/not-unicode.txt
bare fordi teksten starter med \"ÿþ\".)
