Indgår der møder, interviews eller telefonsamtaler i din hverdag, kan det lette hverdagen gevaldigt at få transkriberet disse til tekstdokumenter, der hurtigt kan søges eller arbejdes videre med.
Udfordringen er dog at få transkriberet disse på overbevisende vis, især på dansk, samtidig med at eventuel fortrolighed, datasikkerhed eller andre oplysninger ikke forsvinder hen i online-tjenestes cloud-lager.
Og kan sådan en tjeneste endda være enkel og gratis at bruge, er det også velset.
Netop sådan en løsning, kan du dog få fingre i ved at give dig i kast med open-source programmet ’Buzz’, hvor du tilbydes adgang til flere af klodens førende AI-modeller til netop transkribering af dansk og dusinvis af andre sprog.
Sådan kommer du i gang
Buzz er et open-source program, som fungerer som en betjeningspanel til en række AI-modeller udviklet til netop transskribering af lyd til tekst.
Her tilbydes blandt andet adgang til OpenAI’s seneste og stærkeste Whisper-modeller, som er gratis at anvende og som kvalitetsmæssigt er blandt de førende.
For at komme i gang skal du hente og installere programpakken og dernæst gennemgå disse to trin.
Trin 1: Hent programmet Buzz på appens Github-side. Bemærk, at der er flere versioner i spil, og at der er to tilhørende ’.bin’ data-filer, der skal hentes sammen med installationsfilen til Windows.
Disse filer sammen med installationsprogrammet ’Buzz-1.4.4-windows.exe’ kan du hente her.
Her kan du også finde .dmg filer til MacOS.
Trin 2: Når du har hentet versionen til dit styresystem, kan du dobbeltklikke på installationsfilen for at installere den.
Både Windows og MacOS-styresystemerne vil indvende, at programmet ikke er sikkerhedsmæssigt signeret, hvilket er normalt for denne app. Du skal dog sikre dig, at programmet er den rette version.
Buzz i aktion
Når programmet åbnes, får du en blank oversigt, hvori du kan tilføje lyd-filer til transskribering.
Når filen er indlæst, kan du vælge mellem forskellige såkaldte backends til at afvikle de forskellige modeller. Her kan ’Faster Whisper’ anbefales som en hurtig, men effektiv back-end til at benytte Whisper.
Derefter kan du vælge model, hvor Whisper Large-V3 kvalitetsmæssigt er bedst, mens Large-V3-Turbo er det bedre kompromis mellem hastighed og kvalitet.
På en hurtig AI-optimeret enhed, tager det et par minutter at transskribere et minuts interview. Har du et kraftigt grafikkort i din maskine, kan denne tid barberes betragteligt ned.
Benytter du Turbo-modellen, klares opgaven på under en tredjedel af tiden.
Masser af muligheder
Selv om interfacet i Buzz-programmet kan virke noget spartansk, rummer programmet mange muligheder for at få det bedste ud af dine lydfiler.
En af de vigtigste indstillinger at slå til er forudindstillingen af det sprog, som lydfilen er i for at sikre bedst mulige resultater.
En anden stærk mulighed ligger under ’avancerede indstillinger,' hvor du kan instruere modellen i hvad outputtet skal være: En klinisk lægejournal, et interview i larmende omgivelser eller en dokumentationsvideo fra YouTube.
Her er det en god idé at spørge din favorit AI-chatbot om, hvordan en god prompt vil lyde.
Når dit lydklip er bearbejdet, kan du åbne outputtet ved at dobbeltklikke på projektet og få Buzz til at udføre en række opgaver.
Her kan fremhæves søgefunktionen og muligheden for at identificere talere i eksempelvis et interview og for at eksportere til formater såsom SRT eller VTT til at tekste videoer samt almindelig TXT fil eksport af øvrig tekst.
Armeret med den, kan du viderebehandle teksten med AI-tjenester som ChatGPT til at oversætte, rense eller formattere teksten, eller endda gøre det lokalt med den voksende skare af potente lokale AI-modeller.