Když data stačí: Publikovat vysoce hodnocený článek lze i bez průlomového objevu
Ve světě vědy a výzkumu není výjimkou, že člověk nebo rovnou celý tým stráví měsíce i roky sběrem cenných pacientských dat, vykoná stovky měření, dá dohromady bohaté datové soubory, a i přes veškeré úsilí se nepodaří na jejich základě publikovat článek. I když se to na první pohled může zdát jako promarněný čas, ještě netřeba házet flintu do žita.

Publikace v Q1 založená čistě na datech aneb i cesta vědy může být cílem
Otevřít se může úplně nová příležitost. Časopis Scientific Data z portfolia Nature Publishing Group se zaměřuje na publikaci výzkumných dat jako samotného výstupu. Nepřijímá tedy tradiční vědecké články s testováním hypotéz, ale podrobné popisy datasetů a metod jejich sběru.
Zaměřuje se na data napříč obory přírodních věd, medicíny i technologických oborů, uspět zde můžou jak biologické experimenty, tak technické datové soubory. Tedy publikuje články o přípravách a procesu sběru i zpracování pečlivě zdokumentovaných datasetů, které mohou dále využívat vědci z různých oborů.
Proces publikace ve Scientific Data
Jedním z vědců, kteří ve Scientific Data už několikrát publikovali, je Jan Cimbálnik z týmu Biomedicínského inženýrství na ICRC. Jeho poslední článek Human brain local field potential recordings during a battery of multilingual cognitive and eye-tracking tasks je zaměřený na sběr záznamů z monitorování pacientů s epilepsií implantovanými hloubkovými elektrodami do různých oblastí mozku. „U každého pacienta jsme zaznamenali přes sto signálů z různých mozkových oblastí, zatímco plnili úkoly zaměřené na verbální paměť. Snímali jsme také pohyby jejich očí, abychom analyzovali, jakým způsobem pročítali zadání a postupovali při řešení úloh,“ přibližuje Jan Cimbálnik. Výzkumníci zaznamenali také mluvené nebo jiné verbální reakce pacientů. „Všechna tato data jsme posléze synchronizovali, uloženy jsou v kompletní podobě včetně metadat. Můžeme tak analyzovat, jak mozek reaguje na konkrétní slova.“

Výzkumník ICRC Jan Cimbálnik
Sběr dat
Sběr dat probíhal ve třech jazykových mutacích – češtině, slovenštině a polštině. „Každý pacient prováděl úkoly ve svém rodném jazyce. Máme tak robustní a reprodukovatelná data, která mohou být použitelná napříč různě hovořícími zeměmi,“ vysvětluje Cimbálnik. Z angličtiny byla přeložena stejná sada slov a používala se ve třech různých paradigmatech – free recall, paired-associate learning and individual word screening
„Každé podstatné jméno bylo kódováno. Datová sada tak nabízí jedinečné podmínky pro analýzu konceptuálních buněk nebo specifických paměťových stop,“ doplňuje Cimbálnik. Celý proces přípravy, sběru i párování a ukládání dat následně výzkumníci popsali do článku a odeslali k recenzi do Scientific Data.

Příprava datového setu
Data je obecně potřeba připravit podle principů FAIR. Ideální je data připravit ve formě, která je pro danou oblast standardem. „Ač se to nezdá, je příprava dat poměrně náročná, zejména pokud jsou data z různých modalit,“ popisuje svou cestu Cimbálnik.
Recenzní řízení
V rámci procesu peer review u Data Descriptors recenzenti hodnotí zejména proces přípravy dat a jejich použitelnost. „Proto se kromě samotné publikace dat v deskriptorech uvádí také technická validace dat. Jedná se vlastně o důkaz, že data jsou použitelná pro studium věcí, které autoři uvádí. Nejvíce připomínek od recenzentů se pak týká hlavně technické validace, případně doplnění metadat,“ popisuje Cimbálnik.
Proč data vůbec sdílet?
„Sdílení dat je podle mě důležitým krokem v dnešním boomu AI. AI algoritmy vyžadují obrovské množství dat, aby mohly být trénovány. Proto jsou takovéto otevřené datasety důležité. Nicméně unikátnost dat poskytuje vědeckým skupinám výhodu oproti ostatním, jelikož s analýzou dat jsou dnes již AI nástroje schopné pomáhat do velké míry. Očekávám, že unikátní data budou sdílena méně,“ vysvětluje. Původce dat má přehled o tom, kdo a jakým způsobem data využívá. „Mě osobně už kontaktovaly vědecké skupiny,“ doplňuje Cimbálnik.

A kde data nasdílet? Repozitářů je spousta
Pojďme si to uvést na příkladu. Dataset Jana Cimbálnika byl uložen v infrastruktuře EBRAINS a otevřel se tak prostor pro jeho dlouhodobé využívání, kombinování s dalšími zdroji a inspiraci nových výzkumných otázek.
„V době, kdy roste důraz na transparentnost a reprodukovatelnost, představuje tento přístup jeden z nosných prvků současného vědeckého poznání,“ říká vedoucí Centra podpory vědy a informačních služeb ve FNUSA Petra Dědičová. „Pokud se s daty pracuje na základě FAIR principů – aby byly snadno nalezené, přístupné, interoperabilní i znovu použitelné, mohou sloužit celé vědecké komunitě a posouvat lidské poznání dál.“
Časopis Scientific Data defaultně nabízí svým autorům uložení dat v obecném repozitáři FigShare. EBRAINS představuje specializovaný repozitář zaměřený na neurovědu, využívají jej vědci, lékaři, studenti medicíny nebo psychologie i technologové ke sdílení a analýze dat o mozku a k vývoji nových medicínských i technologických nástrojů. Ukládání dat do oborových repozitářů je preferovaná cesta lépe pokrývající potřeby práce s daty často specifické pro danou odbornou komunitu.
EBRAINS nabízí kromě velkých souborů nejrůznějších dat, softwary a modely pro simulaci mozku a interaktivní mapy, takzvané mozkové atlasové nástroje.
„Platforma si zakládá na tom, aby veškerá data byla snadno dohledatelná, dobře dostupná, vzájemně kompatibilní a opakovatelně použitelná,“ pokračuje Dědičová. Repozitáře jako EBRAINS najdeme i v jiných oborech, například pro uložení dat ohledně fyziologických signálů nebo nádorového zobrazení.
Hledat vhodný repozitář můžete i v rozcestnících zaměřených na medicínské obory:





