Importering af data fra mange ustrukturerede txt dokumenter
Jeg håber nedenstående problemstilling giver mening :-)Problem:
- Jeg har et enormt antal dokumenter (txt), hvori der ligger ca. 20 liniers ustrukturerede data som jeg ikke er interesseret i og 50 liniers ustrukturerede data som jeg skal lave nogle statistiske analyser på.
(Indholdet af dokumenterne er indbyrdes forbundne, således at eksistensen af 1 element data i det følgende dokument har betydning for om samme element i det forrige giver mening - så jeg har behov for at kunne fjerne informationen undervejs)
Jeg mangler en god måde at hente disse data ind i struktureret form, således jeg kan behandle dem.
- Hvordan kan jeg automatisere hentning af data fra tekstdokumenterne?
- Hvordan kan jeg fjerne elementer undervejs?
- Hvilket program er rigtigt godt (og nemt) at lave statistiske analyser med?
