En studie i Nature diskuterar forskargruppsstorlek och drar slutsatser om vilken typ av forskning dn genererar på basis av bibliometriska data. Den lyfts i en Curieartikel här, som jag var inbjuden att kommentera, men då artikeln mer lade fokus på gruppstorlek och mina kommentarer snarare handlade om studiens upplägg och vilka slutsatser man kan dra på basis av jättemycket data så kom de inte med. Det ger mig dock möjlighet att utveckla mina resonemang lite mer. Texten nedan utgår från mina svar på journalistens frågor som var om disruptiveness är ett vettigt mått och om jag hade några synpunkter på författarnas metod och slutsatser.
Jag har inga speciella åsikter om forskarnas resultat men vill samtidigt lyfta några kritiska kommentarer gällande hur långt man kan dra statistiska data och hur man med en suggestiv benämning konstruerar fangtasieggande tolkningar. Författarna använder distinktionen ’disruptive research’ som står i kontrast ’developmental, eller mer kumulativt betonad forskning. Vem vill inte vara omvälvande? Mönstret går igen från Kuhns vetenskapsteori, han talar om revolutionerande gentemot pusselläggande forskning.
Den här artikeln är uttryck för en ny form av bibliometrisk studier som för enkelhets skull kan gå under beteckningen Science of Science efter en av sina utmärkande artiklar av Santo Fortunato et al, eller komplexa system, som använder numeriska modeller med enorma dataset för att identifiera statistiskt hållbara lagbundenheter om de fenomen de studerar. I den här studien: 24 miljoner artiklar och 38 miljoner forskare och deras publikationer under mer än ett halvt decennium. Det är å ena sidan bibliometrikerns våta dröm, men å andra sidan skulle jag vilja påstå att det finns risk att alla data döljer minst lika mycket som de plockar fram.
För lika mycket som lagbundenheter och statistiska samband kan beskrivas i termer av centralmått och korrelation mellan variabler, lika lite kan de säga om det faktiska innehållet i forskningen och vad det faktiskt är som gör att viss forskning får stort genomslag.
Själva måttet i sig är ganska intressant, att det går att skilja mellan artiklar som blir refererade av en litteratur som delar ursprungsartikelns referenser och artiklar för vilka de refererande artiklarna hänvisar till en helt annan litteratur, men frågan är exakt vad det visar.
I korthet kan man säga att vad som identifierats är ett slags gränsgångarnatur där en studie får stort genomslag i ett annat ämne än i vilket det är publicerat inom. Det är inte ovanligt när det gäller exempelvis metavetenskaplige discipliner som filosofi eller sociologi som får genomslag i exempelvis ekonomiområdet eller hälsoforskning. Jag har sett det i geografi, där GIS-teoretiska papers fått genomslag i epidemiologi eller entomologi(!) och därmed fått ett uppsving pga ett mycket större upptagningsområde i det refererande forskningsområdet.
Men problemet är att forskarna i mindre grad verkar kunna besvara varför det ser ut på ett visst sätt eller hur mekanismen för disruptiveness fungerar, istället att de med relativt stor säkerhet kan identifiera dessa mönster där de förekommer.
Som förklaring skulle man kunna resonera kring att ett stort team svårligen kan vara gränsgångare på det sätt som lyfts fram här, eftersom de av sin natur tenderar att vara mer mång- eller tvärvetenskaplig. Ett stort team av likasinnade monovetenskapliga forskare skulle antagligen vara redundant. Men något som jag alltså tycker att studien verkar sakna är förmågan att söka förstå den nya indikatorns funktion eller betydelse. Disruptiveness har ingen specifik definition utan blir en etikett på ett statistiskt samband som uppstår i modellen.
Så ja, det är ett intressant mått som är relativt distinkt och som kanske till och med kommer att införlivas i citeringsindexen tillsammans med råa citeringstal och aggregerade mått som h-index och Scopus nya ”prominence score”, men frågan är vad det kan säga om enskilda artiklar. När väl disruption har kunnat uppmätas har så lång tid gått att artikeln i sig antagligen redan har fått sitt genomslag i sitt eget fält eller slagit i ett annat fält.
En nyhetsartikel i Nature drar lite längre slutsatser än författarna själva. Dess slutsatser är intressanta, men jag är lite frågande till hur författaren menar att måttet på disruptiveness kan påverka utvärdering av forskning eller påverka finansieringsmekanismer annat än att säga att större storlek kanske inte har så stor betydelse, statistiskt sett. Men det är däremot intressant att artikeln visar att citeringsdata kan användas till mer än att bara mäta frekvens och att citeringsmönster snarare än deras frekvens kan vara användbara för att identifiera spännande fenomen.
Men 20, 40 eller 60 miljoner uppmätta datapunkter är inte imponerande annat än att det påvisar tillgång till mycket data och jag är övertygad om att man kan påvisa samma typ av mönster med ett dataset som är tre ordningar mindre (10.000-100.000 datapunkter). Men för en tidskrift som Nature är nog ”miljoner” ett måste.
Sammantaget, det har gått åt en enorm mängd data för att visa att stora och små forskargrupper statistiskt sett har skilda former av impact, men att det inte går att identifiera vilken typ av impact en specifik forskargrupp kommer att få. För som det anges i artikeln: Mindre forskargrupper tenderar att vara få genomslag längre fram i tiden – om de över huvud taget får något genomslag.