Knihovna

2013, ročník 24, číslo 1, s. 104-111

Big data a jejich možnosti v kontextu knihoven

Mgr. Michal Černý / CEINVE FF MU

Resumé:

Big data (velká data) představují jednu z nejdynamičtěji se rozvíjejících oblastí informatiky, s velkým potenciálem proměnit fungování celého internetu, informační společnosti, ale také například knihoven. Právě ty disponují velkým množstvím částečně strukturovaných dat a měly by být informačními centry v celospolečenském kontextu. Článek se věnuje možnostem využití big data v knihovnách, s tím souvisejícím změnám v práci informačních specialistů a změnám informačního vzdělávání. Prostor je věnován také jednotlivým soudobým řešením jako je vizualizace big data, NoSQL databázím a dalším možným řešením, vždy v kontextu možného knihovnického využití.

Klíčová slova: big data, NoSQL, Graph search, knihovny, informační společnost

Summary:

Big data represent one of the most dynamic trends in computer science with great potential to transform the function of the Internet and the information society, but also libraries which have a large amount of semi-structured data at their disposal and should be information centres for the whole society. The article deals with the possibilities of big data use in libraries and the related changes in the work of information specialists and information education institutions. The text also describes various present-day solutions such as big data visualization, NoSQL databases and other possible solutions, always in context of the potential use in the libraries.

Keywords: big data, NoSQL, Graph search, library, information society

Úvod

Big data (dále velká data) představují jednu z nejdynamičtěji se rozvíjejících oblastí informatiky, s velkým potenciálem proměnit fungování celého internetu, informační společnosti, ale také například knihoven. Právě ty disponují velkým množstvím částečně strukturovaných dat a měly by být informačními centry v celospolečenském kontextu.

Pokud jde o vztah knihoven a fenoménu velkých dat, je třeba o něm uvažovat z několika hledisek. V prvé řadě jde o vlastní kapitál knihoven v podobě obrovského fondu již částečně uspořádaných informací, což je z pohledu zpracování velkých dat užitečná vlastnost. Big data jsou natolik objemná, že je často nelze triviálně zpracovávat. Je třeba provádět jejich kvalifikovanou analýzu. K této činnosti je nutný vysoce kvalifikovaný informační specialista1, což je profese v knihovnách hojně zastoupená (tímto směrem by se mělo ubírat vysokoškolské vzdělávání knihovníků a informačních specialistů na univerzitách).

Knihovny by ale neměly zůstat stranou ani v oblastech, které se k problematice velkých dat těsně přimykají, jako jsou internet věcí2, sémantické technologie3 nebo třeba zpracování přirozeného jazyka, který právě na limity klasického zpracování velkých dat naráží. Také do těchto oblastí knihovny mohou a měly by intenzivně zasahovat.

O významu velkých dat se v současnosti hovoří stále více, protože jde o oblast ICT, která předkládá zcela nové možnosti využití ICT4. Příkladů již aktuálního využití existuje celá řada. Amazon nabízí online převod videa5, neustále se hovoří o možnostech cloud computingu6 v oblasti zpracování velkých objemů dat. Další významnou oblastí může být počítačové zpracování emocí7, které poslouží pro identifikaci teroristů na letišti, pro telefonní automatizované služby nebo hlasové ovládání.

V současné době se pro zpracování velkého objemu dat, což je jen jedna z forem fenoménu velkých dat, používá open source aplikace Apache Hadoop8, která slouží pro distribuované výpočty. Právě distribuované výpočty umožňují řešit problémy, jako je analýza srážek v urychlovači LHC (Velký hadronový urychlovač (Large Hadron Collider)), kolize galaxií nebo náročnější úlohy při studiu lidského genomu.

Vlastnosti velkých dat

Analyzujeme-li již existující chápání jevu zvaného big data, zjistíme, že neexistuje žádná jednoznačně ustálená definice, neboť každá definice akcentuje jiné téma a jiný aspekt jejich využití. Obecně ale můžeme říci, že jde o takový druh dat, který neumíme zpracovat v čase, jež by se nám v současnosti jevil jako přiměřený, a s vynaložením sil a prostředků, které bychom mohli označit za rozumné. Je třeba říci, že představa o tom, co jsou big data, se vyvíjí v čase souběžně s růstem výpočetní možnosti a kapacity ICT.

Obecně lze hovořit o čtveřici základních segmentů, ve kterých má smysl big data chápat a rozlišovat. Jde především o9:

Objem – dat je příliš mnoho na to, abychom je uměli zpracovat v rozumném čase. Tato kategorie představuje to, co obvykle chápeme pod pojmem big data široká veřejnost. Řešení se nabízejí různá. Zřejmě nejsnazší cestou je užívání triggerů, tedy zařízení, která přímo při získávání dat provádějí elementární analýzu a vybírají jen ta zajímavá. Jde tedy o obcházení problému, neboť zmenšujeme objem dat, která máme zpracovávat. Dalším obvyklým řešením je například užití distribuovaných výpočtů či gridů, což ale není možné provádět vždy (například pro předpovědi počasí se podobné technologie příliš nehodí). V takovém případě je třeba použít superpočítačů, což je ale řešení zřejmě nejdražší.
Rychlost – data potřebujeme zpracovávat téměř v reálném čase. Kritický tak není objem samotný, ale problémem jsou nároky na odezvu (příkladem může být zmíněné hledání teroristů na letišti prostřednictvím multispektrálních kamer a následná analýza jejich pohybu, mimiky a tělesné teploty). Pokud jde o data, která se ukládají do databází, řeší se tento problém pomocí NoSQL10, kde v rychlém zpracování nehledíme na celek, ale zpracováváme jen některé jeho podstatné informace, nemáme nároky na konzistenci dat atp. Částečnou možností pro řešení jsou pak opět distribuované výpočty či superpočítačová centra.
Nestrukturovanost – pokud nemáme přesně dané rysy či kategorie, které máme sledovat, stává se i relativně triviální činnost výpočetně mimořádně složitou. Jde např. o vyhledávání v databázích multimediálních dat jinak než pomocí metadat či textových popisků (třeba pomocí porovnávání se vzory ve znalostní databázi – identifkujeme ve filmu Eiffelovu věž a víme, že film se odehrává v Paříži atp.).
Nehomogenita a nekonzistence – představuje problém, potřebujeme-li vytvářet algoritmicky zpracovatelný výstup z dat různého charakteru – z SQL tabulky, multimediálního soboru či sociální sítě. Obvykle jde o řešení analýzy „per partes“11 spojené pak do jednoho celku. Tím ale dochází jednak k navýšení požadavků na výkon, jednak k poklesu flexibility takových systémů.

Big data a knihovny

Big data jsou jedním z největších problémů, ale zároveň i výzev informatiky a internetu současnosti. Představují relativně pestrou oblast dat, kterou je možné zpracovat různými způsoby. Již jsme se zmínili o konceptu distribuovaných výpočtů12 či superpočítačových center. Knihovny v tomto ohledu mohou nabídnout zajímavý koncept známý například ze senzorických sítí. Nemají sice k dispozici velké výpočetní kapacity, ale jejich rozprostřené informační zdroje mohou vytvářet mozaiku pro práci s jedním konkrétním, centrálně definovaným tématem, což jistě není nezajímavá možnost.

Knihovny provádějící digitalizaci se problému big data dotýkají, protože je produkují. Ač bychom neradi snižovali význam samotné digitalizace, mnohem zajímavější a důležitější je její další využití. Nejde přitom jen o zachování klasických standardů známých z digitálních knihoven, jako je Dublin Core, RFC 1807 či MARC, jež jsou všechny metadatové. Cílem by optimálně měla být práce přímo se zpracovanými daty, což je zajímavé téma ze zpracování přirozeného jazyka.

Problém big data se pak stává plastičtější, pokud chceme pracovat s audioformátem nebo s přizpůsobením nabídky četby podle emocí čtenáře. Pomocí algoritmizace lze provádět počítačové zpracování emocí, jejich modelování a užívání13. Optimální by pro počítačové zpracování emocí bylo nejen pochopení sémantických klíčových informací, ale také emocionálních rezonancí uvnitř textu. Jde totiž o klíčový problém syntézy řeči, bez nichž není možné automatizovat převod textu do zvukové podoby tak, aby výsledek byl pro posluchače příjemný a informačně přínosný.

Knihovny mohou hrát významnou roli také jako centra, kde se budou budovat znalostní databáze, což je další oblast, která bude v kontextu sémantického desktopu, expertních a dialogových systémů i dalších technologií stále více žádaná. Knihovny disponují informačními specialisty, kteří jsou schopni pracovat s informacemi v nejrůznější podobě, třídit je a dávat do kontextu.

Big data představují nejen velký problém, ale také velkou výzvu a možnosti, které si dnes můžeme jen těžko uvědomovat. Jejich velký rozvoj je možné spatřovat především v kontextu internetu věcí, který je někdy (poněkud nepřesně) označován jako M2M14. Tedy v situaci, kdy prostřednictvím sítě budou spolu masivně komunikovat jednotlivá zařízení, aniž by se této komunikace přímo účastnil člověk. A právě tento nárůst dat spojený s internetem věcí bude díky konceptu big data možné novým způsobem analyzovat.

Souviset také to, jak se bude rozvíjet zásadní internetový protokol IPv615. Díky většímu adresnímu rozsahu a výběrovým adresám (anycast) bude možné velice dobře do internetu věcí zapojovat automobily (například navigací, hledáním optimálních možností pro čerpání pohonných hmot, analýzou emocí řidiče atp.) a jejich jednotlivé součástky, mobilní telefony či senzorické sítě. To vše zásadním způsobem zvýší množství dat, která budou vypovídat o světě, ve kterém žijeme16. To může mít samozřejmě celou řadu problematických dopadů na soukromí jednotlivce, jehož sféra může být v důsledku rozvoje tohoto konceptu značně umenšena. Jednou z možností, jak s velkými daty pracovat, je jejich vizualizace, kdy nás nezajímají detaily, ale spíše vztahy, celkové propojení a kontext, aniž bychom jednotlivé položky nějak detailně studovali. A právě proto by vizualizace v této oblasti mohla být mimořádně potřebná a žádoucí. To je důvod, proč tato problematika paří mezi TOP 13 trendů IEEE Computer Society pro rok 201317. Knihovny mají výhodu, že disponují personálem, který má informačněvědní vzdělání. Tito lidé by měli být schopni pochopit celý proces zpracování informací, jejich dolování a především interpretaci.

V tomto kontextu lze říci, že by se v akademické přípravě informačních specialistů mělo věnovat mnohem více prostoru matematice, která je dnes v celém odvětví nejdůležitější podpůrnou vědou. Jen těžko si lze představit moderního informačního specialistu bez znalosti regulárních výrazů, diskrétní matematiky, logiky či statistiky. Tento posun v chápání role knihoven by se měl – co možná nejdříve – aktivně promítnout do kurikula vysokoškolských programů (zřejmě nejen knihovnických).

Vizualizace a big data

Již jsme zmínili skutečnost, že téma vizualizace big data je jedním z trendů v oblasti ICT. Také IEEE Computer Society ho zvolila tématem roku 201318. Vizualizace dat využívá skutečnosti, že ne vždy potřebujeme získávat jednoznačné informace v podobě jednoho konkrétního čísla; někdy naopak máme velké množství dat a potřebujeme je transformovat takovým způsobem, aby je mohl člověk efektivním způsobem využívat. A právě v rozmezí daném těmito dvěma příklady se možnost vizualizace big data jeví jako mimořádně zajímavá.

Na tomto místě je opět třeba vyzdvihnout úlohu informačních specialistů. Aby bylo možné z dat získávat relevantní informace, je třeba, aby člověk věděl, co v datech hledá a jakým způsobem tyto informace může získat. Mimořádně důležitou roli zde hraje také intuice, pomocí níž zkušený analytik rychle zjistí, k čemu může být daný soubor dat užitečný a k čemu nikoli. Z jednoho souboru dat tak lze získat zcela odlišné výsledky, prostě jen proto, že se na věci díváme z různých aspektů. Volba jednotlivých filtrů, způsobu dolování dat19 nebo také jejich interpretace mohou vést ke zcela odlišným závěrům a poznatkům.

Na procesu vizualizace dat by se mělo v optimálním případě podílet několik odborníků z řady oblastí. Ať již jde o matematiky a informatiky, kteří umí data přímo filtrovat a zpracovávat, nebo sociology, kteří mohou formulovat základní hypotézy a nápady, až po designery a grafiky, kteří budou převádět výsledek do vizuálně přitažlivé a dobře pochopitelné podoby. Big data jsou často velice komplexní, hrají úlohu v rozhodovacích systémech či znalostních databázích, což ještě více zvyšuje nároky na počet a kvalitu odborníků, kteří na nich musí spolupracovat. Současná realita je ale taková, že většinou musí všechnu práci zastat jeden, maximálně dva lidé.

Knihovny20 mají v této oblasti opět určitou výhodu. Tím, jak jsou jednotlivé akademické instituce různé (fondem, sociálním kapitálem, kulturním prostředím i zázemím dalších odborníků), lze říci, že vzniká ve velkých knihovnách mix odborníků z různých oblastí. Ti tvůrčím způsobem přistupují k problematice dat a informací obecně – od matematického či ICT přístupu přes filozofii, sociologii až po design či management. Vytvořit dobrý tým na práci s big data, který bude publikovat zajímavé výsledky pro účely vědy a jejich popularizace, tak nemusí být pro tyto konkrétní knihovny nemožným úkolem.

Pokud bychom chtěli nějak formalizovat proces zpracování a vizualizace big data, mohli bychom užít následující diagram 21:

Diagram znázorňující jednotlivé fáze práce s velkými daty

Diagram znázorňující jednotlivé fáze práce s velkými daty.

Získávání dat představuje primární krok. Za nimi se skrývají všechny dotazníky, kamerové systémy, testy atp. Jestliže máme big data vizualizovat, musíme k tomu mít podklady v dostatečném množství a kvalitě.

Zpracování je transformací (převedením) souboru konkrétních dat do žádoucí, strojem snadno zpracovatelné podoby. Může zahrnovat filtrování obsažené informace (například přepis rozhovoru do značek), a to s ohledem na rychlost a snadnost následujícího zpracování. Jde opět o knihovnicky dobře zmapovaný a známý přístup, který může být u větších objemů dat řešen algoritmicky.

Filtrování navazuje na předchozí zpracování: omezuje data podle určitého filtru či kritéria na ta, kterým se chceme věnovat, a na ta, která nepotřebujeme. V řadě případů je možné užít vícestupňové filtrování pro selekci pouze těch dat, která skutečně potřebujeme. Pojem informačního přetížení je znám v psychologickém kontextu, ale hraje roli také zde. Pokud bychom nepoužívali filtry, těžko bychom se mohli v záplavě údajů zorientovat.

Dolování je fáze, která se zabývá získáváním informací z množiny předložených dat. Využívá přitom nástroje, jako je matematická statistika, regulární výrazy22 atp. Součástí zpracování je také filtrování šumu atp. Jde o možná nejzajímavější část celého procesu. Patří sem vytváření algoritmů, které by umožnily identifikovat určité společné rysy dokumentů, snaha o automatické generování později analyzovaných struktur a řada dalších oblastí.

Reprezentace se věnuje zobrazení takto získaných dat do formy, která bude vizuálně snadno pochopitelná. Obvyklé pole či tabulku tak můžeme převést do podoby grafu, mapy či jiné formy reprezentace dat. Je nutné zde vidět návaznost například na systémy business intelligence, které slouží pro rychlé rozhodování a utváření strategií. Manažeři nepotřebují vidět jednotlivosti, ale trendy, důležité informace, které je třeba umět „vytáhnout“.

Čištění pracuje na vylepšování již vytvořeného výsledku. V této fázi se zamýšlíme nad tím, jaká barva na mapě bude reprezentovat jakou hodnotu. Celkově pečujeme o vizuální kvalitu celého výstupu. Opět dochází k odstranění šumu, nepotřebných dat, informací, které k výsledku nepotřebujeme.

Interpretace je poslední fáze, kdy hledáme cesty pro co nejlepší možnosti pochopní obsahu. Může jít například o přidání vrstvy, která zobrazí problém z jiného pohledu, animace v čase atp. Logicky se proto opět odkazuje k dolování dat. Jde o fázi, jíž by se měl vždy účastnit odborník, do jehož kompetence téma spadá. Zde se porovnávají výsledky s hypotézou či vstupními modely, vytváří se příběh, hledají se příčiny.

Obecně můžeme uzavřít, že proces zpracování big data pomocí vizualizace patří mezi nejzajímavější, knihovnám nejdostupnější a nejvděčnější metody práce23. Výsledkem může být poster, který si návštěvníci prohlížejí, komentovaný článek v odborném periodiku atp. Jde o výstupy, které lze snad předávat do médií a ukazovat na nich, jaké jsou skutečné aktuální možnosti knihoven. Nejde tedy pouze o úložiště/depozitáře knih, nýbrž o instituce, kde uživatel nalezne setříděné zdroje a kvalitní informační specialisty, kteří s nimi umí patřičným způsobem zacházet.

NoSQL databázové koncepty

Zatímco před několika lety bylo užívání jiných než SQL databází spíše vzácné, dnes lze naopak říci, že stále více projektů nejrůznějšího druhu sahá po řešeních, která jsou souhrnně označována jako NoSQL databáze. Jen pro ilustraci/doplnění je možné zmínit základní vlastnosti klasické SQL databáze24:

Data jsou uložena v tabulkách. Každý sloupec je definován pro určitý datový typ a je možné pomocí libovolného sloupce v datech vyhledávat nebo je filtrovat.
Platí zásada ACID (Atomicity, Consistency, Isolation, Durability), která zajišťuje, že jsou data v každém okamžiku vždy konzistentní a že operace s databází nemají nepředvídatelné závislosti.
SQL databáze standardně obsahují jen znakové řetězce.

Tyto znaky na jednu stranu znamenají, že SQL databáze mají výborné vlastnosti, nesou maximum zpracovatelných informací. Mají však také nevýhody. Obsah musí mít jasnou a pevnou strukturu, kterou nelze měnit. Tabulky jsou velké a pomalé. Nelze provádět více operací současně atp. V případě databází vytvářených s big data předpokládáme, že objem je vždy velký, máme zvýšené nároky na rychlost a obvykle nepotřebujeme mít úplnou informaci, ale chceme zjišťovat jen určité fragmenty či části výsledků. A k tomu se NoSQL řešení hodí podstatně lépe. Mezi nejznámější řešení patří: 25 26

Key-value databáze jsou založeny na myšlence, že ke každému unikátnímu klíči je přiřazena určitá hodnota. Databázový systém umí v zásadě jen poskytnout odpověď na otázku, která odpovídá předem definovanému klíči, vrátit informaci o hodnotě, přidávat a upravovat záznamy atp. Vyhledávání se děje jen pomocí klíče, který není možné v databázi nějak dynamicky měnit. Tyto databáze se používají všude tam, kde je třeba zajistit rychlé odpovědi, byť za cenu nižších možností databáze. Časté je řešení, kdy základní dotazy a funkce zajišťuje rychlá key-value databáze a pokročilejší a náročnější operace pomalejší SQL databáze27. Toto řešení užívá například Facebook či LinkedIn.

Grafově orientované databáze (Graph database) odstraňují jeden z největších problémů relačních databází, totiž malou škálovatelnost, která je daná pevně nastavenou tabulkou. V řadě případů je ale třeba mít flexibilnější řešení, které nabízejí právě grafově orientované databáze. Každý uzel má mimo vlastní informace uloženy také odkazy na své kolegy (sousední uzly). Toto řešení je dnes nasazeno například u Graph search, které užívá Facebook k hledání informací od přátel.

Dokumentové databáze se snaží řešit problém typicky knihovnický – jakým způsobem prohledat, analyzovat či odvozovat z dokumentů, které nejsou jen položkou v tabulce, ale obsahují souvislý text.

Knihovnám se otvírají velké možnosti, kterých by bylo škoda nevyužít. Zajímavé aplikace, které by využívaly big data, by mohly zásadním způsobem změnit to, jak je na knihovny dnes nahlíženo, nebo v řadě případů pozměnit jejich společenskou, odbornou, komunitní či univerzitní funkci. Může jít o aktivity, které ještě více prohloubí roli knihoven jako integrální součásti ekosystému univerzity, města či kraje.28

Závěrem

Big data představují jednu z největších technologických revolucí, které svět okolo nás budou zásadním způsobem přetvářet. Knihovny přitom disponují jak intelektuálním a sociálním kapitálem, tak daty, která mohou v této oblasti použít. Otvírají se také možnosti pro rozvoj spolupráce s komerční i akademickou sférou, nebo napříč jednotlivými knihovnami. Ač jsme nemohli zajít do detailů konkrétních aplikací a možností, věříme, že jsme načrtli základní perspektivy, které budou pro jednotlivé knihovny a knihovníky inspirativní.

Poznámky

1 Například absolvent příslušného vysokoškolského vzdělání v oboru informačních věd či knihovnictví.

2 Internet věcí můžeme chápat například jako koncepci počítačové sítě, kdy spolu komunikují jednotlivá zařízení díky vlastní vestavěné inteligenci a nikoli jen jako nástroj lidské činnosti. Viz například ČERNÝ, Michal. Internet věcí: výzva pro business i vývojáře.

3 Sémantický web je rozšířením současného webu, v němž informace mají přidělen dobře definovaný význam, který počítačům a lidem umožňuje lépe spolupracovat. Sémantický web představuje reprezentaci dat na webu.

4 DOLÁK, Ondřej. Big data: Nové způsoby zpracování a analýzy velkých objemů dat. SystemOnline [online], 2011 [cit. 2013-01-09].

Dostupné z: http://www.systemonline.cz/clanky/big-data.htm.

5 AMAZON. Amazon Elastic Transcoder [online]. 2013 [cit. 2013-02-12]. Dostupné z: https://aws.amazon.com/elastictranscoder/.

6 Cloud computing je model využívání výpočetní kapacity počítačů prostřednictvím sítě. Umožňuje flexibilní alokaci výkonu či služeb bez nutnosti trvalého vlastnictví těchto prostředků.

7 Počítačové zpracování emocí je relativně široká oblast výzkumu, který se zaměřuje na to, jakým způsobem měřit na základě fyziologických procesů lidské emoce, vyhodnocovat je a dále je zpracovávat.

8 Welcome to Apache™ Hadoop®!. APACHE. Hadoop [online]. 2012 [cit. 2013-04-08]. Dostupné z: http://hadoop.apache.org/.

9 DOLÁK, Ondřej. Big data: Nové způsoby zpracování a analýzy velkých objemů dat. SystemOnline [online], 2011 [cit. 2013-01-09].

Dostupné z: http://www.systemonline.cz/clanky/big-data.htm.

10 NoSQL je souhrnný název pro databáze využívající libovolný jiný koncept ukládání a organizace dat než ten, který známe z SQL (tedy přesně definovanou tabulku s klíči).

11 Per partes zpracování je založeno na myšlence, že složitý problém je možné rozdělit na menší a jednodušší a ty samostatně řešit. Tím odpadá potřeba mimořádně výkonného počítače, která se přesouvá například do oblasti distribuovaných výpočtů.

12 Distribuované výpočty jsou takové, které jsou prováděny na velkém množství počítačů paralelně. Toto řešení zásadním způsobem snižuje finanční nároky na výkon výpočetních strojů.

13 ČERNÝ, Michal. K budoucnosti vyhledávání informací: legislativní, personální a technická omezení. Inflow: information journal [online], 2012, roč. 5, č. 3 [cit. 2013-02-12]. ISSN 1802-9736. Dostupný z: http://www.inflow.cz/k-budoucnosti-vyhledavani-informaci-legislativni-personalni-technicka-omezeni.

14 Machine to machine je označení pro komunikaci dvou strojů, obvykle prostřednictvím počítačové sítě, do které přímo nezasahuje člověk.

16 ZANDL, Patrik. Chcete změnit svět? Věnujte pozornost Internetu věcí a Velkým datům. Marigold [online], 2013 [cit. 2013-01-09]. Dostupné z :

http://www.marigold.cz/item/chcete-zmenit-svet-venujte-pozornost-internetu-veci-a-velkym-datum.

17 ČERNÝ, Michal. Třináct IT trendů v roce 2013 podle IEEE: Internet věcí, big data i soutěž ve spolehlivosti. Lupa [online], 2013 [cit. 2013-01-09]. Dostupné z : http://www.lupa.cz/clanky/trinact-it-trendu-v-roce-2013-podle-ieee-internet-veci-big-data-i-soutez-ve-spolehlivosti.

18 ČERNÝ, Michal. Třináct IT trendů v roce 2013 podle IEEE: Internet věcí, big data i soutěž ve spolehlivosti. Lupa [online], 2013 [cit. 2013-01-09]. Dostupné z: http://www.lupa.cz/clanky/trinact-it-trendu-v-roce-2013-podle-ieee-internet-veci-big-data-i-soutez-ve-spolehlivosti

19 Dolování dat (či data mining) je analytická činnost založená na získávání skrytých či netriviálních informací z dat. Často je spojena s náročnými matematickými či algoritmickými postupy.

20 Zde se omezujeme jen na knihovny univerzitní či odborné, ale v menší míře to jistě může platit také pro knihovny dalšího druhu.

21 FRY, Ben. Visualizing data. 1st ed. Sebastopol: O´Reilly, 2007, ISBN 05-965-1455-7, s. 5–8.

22 Regulární výraz je řetězec popisující množinu řetězců. Užívá se pro hledání nějaké části dat v celém jejich souboru.

23 Na tomto místě ponechme stranou diskuse nad konkrétním financováním těchto aktivit.

25 Seriál Nerelační databáze. Zdroják [online], 2011 [cit. 2012-09-05].

Dostupné z: http://www.zdrojak.cz/serialy/nerelacni-databaze.

26 PLUGGE, Eelco, Peter Membrey a Tim Hawkins. The definitive guide to MongoDB: the noSQL database for cloud and desktop computing. New ed. [Berkley]: Apress, 2010. ISBN 978-1-4302-3051-9.

27 SQL je standardizovaný dotazovací jazyk, který se používá pro práci s daty v relačních databázích.

28 ČERNÝ, Michal. Knihovna jako ekosystém. Inflow: information journal [online], 2011, roč. 4, č. 11 [cit. 2011-11-07]. ISSN 1802-9736. Dostupný z: http://www.inflow.cz/knihovna-jako-ekosystem.

Literatura

AMAZON. Amazon Elastic Transcoder [online]. 2013 [cit. 2013-02-12].

Dostupné z: https://aws.amazon.com/elastictranscoder/.

CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago: American Library Association, 2003, ix, 192 p. ISBN 08-389-0847-0.

ČERNÝ, Michal. Internet věcí: výzva pro business i vývojáře. Root [online], 2013 [cit. 2013-03-29]. Dostupné z: http://www.root.cz/clanky/internet-veci-vyzva-pro-business-i-vyvojare/.

ČERNÝ, Michal. K budoucnosti vyhledávání informací: legislativní, personální a technická omezení. Inflow: information journal [online], 2012, roč. 5, č. 3 [cit. 2013-02-12]. ISSN 1802-9736. Dostupný z: http://www.inflow.cz/k-budoucnosti-vyhledavani-informaci-legislativni-personalni-technicka-omezeni.

ČERNÝ, Michal. Knihovna jako ekosystém. Inflow: information journal [online], 2011, roč. 4, č. 11 [cit. 2011-11-07]. ISSN 1802-9736. Dostupný z: http://www.inflow.cz/knihovna-jako-ekosystem.

ČERNÝ, Michal. Třináct IT trendů v roce 2013 podle IEEE: Internet věcí, big data i soutěž ve spolehlivosti. Lupa [online], 2013 [cit. 2013-01-09]. Dostupné z: http://www.lupa.cz/clanky/trinact-it-trendu-v-roce-2013-podle-ieee-internet-veci-big-data-i-soutez-ve-spolehlivosti.

DOLÁK, Ondřej. Big data: Nové způsoby zpracování a analýzy velkých objemů dat. SystemOnline [online], 2011 [cit. 2013-01-09]. Dostupné z: http://www.systemonline.cz/clanky/big-data.htm.

FRY, Ben. Visualizing data. 1st ed. Sebastopol: O'Reilly, 2007, xiii, 366 s. ISBN 05-965-1455-7.

PLUGGE, Eelco, Peter MEMBREY a Tim HAWKINS. The definitive guide to MongoDB: the noSQL database for cloud and desktop computing. New ed. [Berkley]: Apress, 2010. ISBN 978-1-4302-3051-9.

Seriál Nerelační databáze. Zdroják [online], 2011 [cit. 2012-09-05].

Dostupné z: http://www.zdrojak.cz/serialy/nerelacni-databaze/.

Welcome to Apache™ Hadoop®!. APACHE. Hadoop [online]. 2012 [cit. 2013-04-08].

Dostupné z: http://hadoop.apache.org/.

ZANDL, Patrik. Chcete změnit svět? Věnujte pozornost Internetu věcí a Velkým datům. Marigold [online], 2013 [cit. 2013-01-09]. Dostupné z:

http://www.marigold.cz/item/chcete-zmenit-svet-venujte-pozornost-internetu-veci-a-velkym-datum.

CITACE:

Černý , Michal. Big data a jejich možnosti v kontextu knihoven. Knihovna [online]. 2013, roč. 24, č. 1, s. 104-111. Dostupný z WWW: <http://knihovna.nkp.cz/knihovna131/131104.htm>. ISSN 1801-3252.