pdftohtml arabiske tegn
Hej,Der er følgende installeret på den Ubuntu server jeg kører på: http://linux.die.net/man/1/pdftohtml
Jeg bruger det til at konvetere PDF filer til XML som jeg derefter kan parse.
Programmet bliver kaldt igennem PHP:
exec("/usr/bin/pdftohtml 2>&1 -xml <some-path>");
Mit problem opstår når jeg vil konvetere en PDF fil med arabiske bogstaver, de bliver simpelthen bare ignoreret - og jeg får et tomt XML feed. (Tal og latinske bogstaver bliver korrekt oversat).
Jeg prøver at parse følgende PDF:
http://www.dmi.gov.ae/press/uploads%5C2011%5CMar%5Cdocs%5CLarge_260.pdf
