Häromdagen lade Christopher Kullenberg upp resultaten av sitt arbete vad gäller KB:s digitalisering av SOU:er 1922-1996. Han har tankat hem ungefär 400 GB pdf-filer, skapat rena textfiler och sedan delat med sig av de textfiler som blivit resultatet. En icke-trivial uppgift som inneburit långa nedladdningar och hanteringar av stora textmängder. Han har även börjat föra ett resonemang kring olika sätt att söka i dessa filer, och i kommentarsfältet till hans inlägg har det börjat dyka upp diverse idéer om hur man kan använda denna textmängd.
Själv funderar jag på om man skulle kunna använda materialet som ett redskap för prosopografiska studier av den svenska expertiskåren under 1900-talet. Vem har skrivit utredningstext, från vilka akademiska discipliner har dessa kommit? I diskussionen i kommentarsfältet har det framkommit att det borde gå att programmeringsmässigt sätt få fram listor över de namn som nämns i förordet på varje utredning, listor som sedan kan användas som startpunkten för en kollektivbiografisk studie med mer manuella metoder.
Om det här är början pÃ¥ ett fullfjädrat digitalt verktyg för interaktion med SOUrymden Ã¥terstÃ¥r att se. Men bara det som redan är för handen tack vare Christopher Kullenbergs insats – att texterna finns tillgängliga för sökningar antingen via verktyg som Spotlight pÃ¥ Mac eller program som grep – innebär att vi här har goda genvägar in i den avbildning av det vetenskapligt-politiskt-industriella komplexet under 1900-talet som Statens offentliga utredningar är.
Bara för att göra ett första försök på vad som går att göra använder jag Grep för att söka i textmängden enligt tipsen från Christopher. Programmet tuggar på i bakgrunden samtidigt som jag arbetar med annat; det tar lite tid för det är ju en väldigt stor textmassa som datorn skall tugga sig i genom, men efter omkring tre kvarts arbete finns en lista.
Jag prövar pÃ¥ att göra en sökning pÃ¥ ”framtidsstud.*” för att fÃ¥nga olika böjningar av begreppet framtidsstudier. Resultatet blir en ganska lÃ¥ng lista med träffar där begreppet framtidsstudier förekommer i SOUrymden. Bara genom att ögna igenom listan över de utredningar där begreppet förekommer fÃ¥r man snabbt en uppfattning om i vilka politikomrÃ¥den det arbete som utfördes under framtidsstudieparaplyet i Sverige under efterkrigstiden kom till användning.
Mängder med träffar, förstås, till de utredningar som specifikt behandlade framtidsstudier Att välja framtid (1972) och Att studera framtiden (1986). Sen dyker resultat från framtidsstudierna upp inom ett ganska stort antal utredningar som behandlar bistånd, datorpolitik, näringspolitik, energi, miljö, högskolesektorn, forskningspolitik, mediapolitik, gymnasieskolor, skogsvård, handikapp, kulturpolitik, militär underrättelsetjänst, transporter, socialtjänsten och så vidare. Man ser i vilka sektorer framtidsstudier spelat roll, och får med det verktyg som Christopher Kullenberg skapat god hjälp på traven om man vill spåra detta genomslag och kan snabbt plocka fram relevanta ställen där framtidsstudierna omnämns.
Ett litet tips: programmet
ag
(aka ”the silver searcher”) är som en snabbare variant av grep, gjort för att söka genom relativt stora textmängder.Jag använder det dagligen för att söka i källkod och det är blixtsnabbt. Skulle vara intressant att se skillnaden med textmängder pÃ¥ flera gigabytes.
Ett till litet Unix-tips: om du skriver
time grep
i stället för baragrep
så tar du tid på kommandot!Stort tack! ag kände jag inte till. Jag har inte adminrättighet på min jobbdator (universitetsanställd) så jag vet inte om jag kan få det installerat, men jag kan ju testa hemma.
Och time grep var ju en fin liten knorr!
ag är oerhört mycket snabbare precis som mikael säger. Be din systemadministratör installera brew på din dator och sedan ag. Jag skrev en liten instruktion i ett annat kommentarsfält.
Intressant tidsskillnad, faktor tio snabbare! (Kanske routar jag runt och installerar hemma ändå.)
Pingback: Statens blickar mot amatörforskningen | Amatörastronomins historia