PDF filer, ekstrakte tekst, indeksere med SharePoint 2007
Er blevet stillet spørgsmålet, om man kan indeksere indholdet i PDF filer der ligger hist og pist i en SharePoint 2007 installation (intranet).Det, de mener, er (tror jeg), om man kan tilvejebringe en funktionalitet, hvor en søgning med SharePoints søgemaskine vil finde fx en PDF fil, der indeholder ordet "hamburger" og en anden PDF fil, der indeholder ordet "motorolie".
Jo mere jeg har prøvet at forstå PDF, jo mere usikker er jeg blevet. Jeg er med på, at du trinløst kan komprimere fra "ingen kompression" til "crap". Og undervejs fjernes de inkluderede fontsæt m.m. (?), så man til sidst står tilbage med et stykke pixelleret grafik og intet andet(?)
Men kan man opstille en række betingelser for PDF fil- generatorens settings, der gør, man er sikker på, at selve teksten er indeholdt i filen som i det mindste ASCII tekst?
Og findes der lovlige metoder til at ekstrakte denne tekst fra filen, og indeksere den?
Og kan SharePoint 2007 finde ud af at gøre dette selv?
Eller er man tvunget til gå via en Adobe produkt?
