|
Rok 2003, roč. 14, č. 4, s. 254-269 ROZVOJ OTEVŘENÝCH ARCHIVŮ ELEKTRONICKÝCH TISKŮ A ALTERNATIVNÍCH BIBLIOGRAFICKÝCH SLUŽEB V OBORU INFORMAČNÍ VĚDYEva Bratková 1 Tradiční a novodobé informační zabezpečení oboru informační věda Obor informační věda je v současné době reprezentován již relativně velkým množstvím literatury z hlediska časového i prostorového. Informační potřeby odborníků jsou standardně saturovány, tak jako v jiných oborech, informačními zdroji a službami různého charakteru. Bibliografické potřeby jsou zajišťovány prestižními bibliografickými databázemi oboru informační věda. Jde především o trojici známých mezinárodních bází: ISTA (Information Science and Technology Abstracts) produkovanou pro ASIST (The American Society for Information Science and Technology) společností Information Today, LISA (Library and Information Science Abstracts) produkovanou v současnosti společností Cambridge Scientific Abstracts a LLIS (Library Literature and Information Science) produkovanou společností H. W. Wilson. Jde o zdroje americké provenience, které určitě důkladně mapují početnou literaturu Severní Ameriky, pokrytí literatury evropské provenience, zejména pak východoevropské, má ale bílá místa. K těmto zdrojům je potřeba zařadit i části významných mezinárodních databází polytematického charakteru, jakými jsou báze PASCAL s třídou 001A01 ( vědy o informacích a dokumentace) francouzského institutu INIST nebo báze VINITI se sekcí 59 (informatika) stejnojmenného institutu. Důležitou roli hrají rovněž oborové báze národního charakteru, pokud existují. Návazný systém služeb tradičního nebo elektronického charakteru zabezpečuje odborníkům úplné texty požadovaných dokumentů. Převážná část těchto produktů a služeb je ovšem komerčního charakteru. Pokud na ně chybějí prostředky, nastává pro odborníky či badatele jistý problém. Obor informační věda je však dnes prezentován také stále narůstajícím množstvím volně dostupné literatury a dalších informačních zdrojů v elektronické formě uložených na serverech tzv. „povrchového“ webu nebo v databázích či repozitářích dostupných v rámci tzv. webu „hlubokého“ či „neviditelného“. Celosvětově přibývá volně dostupných elektronických časopisů i z našeho oboru, existuje již nepřehledné množství volně dostupných konferenčních sídel s kvalitními sborníky úplných textů příspěvků, sídla výzkumů s obsažnými výzkumnými a technickými zprávami, volně k dispozici jsou na řadě serverů různých organizací oboru další materiály legislativní, výukové, instruktážní a jiné povahy. A právě tento volně dostupný materiál je předmětem zájmu různých nově vznikajících systémů digitálních knihoven, informačních bran, portálů atd., které operují zpravidla na mezinárodní nebo národních úrovních. Specifické místo mezi nimi zaujímají tzv. archivy elektronických tisků. Dá se říci, že ve hře je možná i něco více než jen volně dostupný dokument. Ve sféře vědy, realizované zejména v oblasti akademicko-univerzitní, začal, v jistém slova smyslu, „boj“ o autory mezi komplexem tradiční komerční vydavatelské a distributorské sféry a alternativními novodobými systémy otevřených archivů elektronických tisků a otevřených digitálních knihoven a jejich návazných služeb. Jinak řečeno, některé novodobé systémy těžící z moderních technologií zaujaly doposud téměř prázdný prostor mezi sférou autorů a sférou nakladatelů. To vše v zájmu uživatelů informací také z oboru informační vědy, kteří stále, každým dnem, narážejí na nejrůznější bariéry při získávání potřebných a požadovaných informací k dalšímu rozvíjení tohoto oboru a taktéž návazné praktické činnosti. I v České republice již existuje velké množství literatury a dalších volně dostupných zdrojů z oboru informační vědy v elektronické formě, jsou však rozptýleny na serverech různých informačních, knihovnických, vzdělávacích a jiných organizací. Jejich komplexní registrace na oborové úrovni neexistuje. K dispozici u nás není prozatím ani žádný elektronický archiv, který by tyto dokumenty na oborové úrovni archivoval a poskytoval tak adekvátní služby jejich uživatelům. Dá se hypoteticky předpokládat, že ani obsah nevelké množiny elektronických volně dostupných časopisů české a popřípadě i sousední slovenské provenience není v optimálním množství sledován a využíván ze strany odborníků (nemluvě o časopisech zahraničních). Je možná na čase uvažovat o možnosti vybudování takového systému. Měl by zároveň poskytovat záruky na mezinárodní propojení s jinými již existujícími systémy a jejich službami. Bylo by dobré více zviditelnit kvalitní české dokumenty vůči světu zapojením se do sítě již provozovaných archivů elektronických tisků a digitálních knihoven v oboru informační vědy. V principu jde buď o ukládání významných dokumentů do již existujících zahraničních archivů elektronických tisků (minimálně na evropské úrovni), nebo alespoň o nabídnutí kvalitních metadat o našich dokumentech z oboru informační vědy směrem do systémů digitálních knihoven. Je potřebné počítat ale s tím, že kvalitní metadata znamenají minimálně abstrakt a popřípadě i název dokumentu v anglickém jazyce, pokud bude dokument vytvořen v jazyce národním. Některé kvalitní časopisy tyto údaje mají ( například Národní knihovna : knihovnická revue), a proto je velká škoda, že jich není využito v zahraničních službách (bohužel, citovaný časopis například není vůbec excerpován ani jednou z výše zmiňovaných komerčních světových bibliografických služeb). Nabízejí se však novodobé bibliografické služby jako alternativa služeb komerčních. I o nich je následující text článku. 2 Otevřené archivy elektronických tisků ve vědě a jejich programové zabezpečení Komunikace informací ve vědě doznala díky rozvoji informačních technologií v průběhu posledních 13 let značných proměn. Jedním z výrazných trendů je další rozvoj a rozšiřování „přímé vědecké komunikace“ (fr. communication scientifique directe) pomocí otevřených archivů elektronických tisků (Open Eprint Archives). Jsou jimi míněny, jednoduše řečeno, systémy zahrnující fondy archivovaných digitálních dokumentů [Eprints.org, 2002, What is an Eprint Archive]. U současných archivů elektronických tisků se zdůrazňuje jejich otevřenost v intencích principů a protokolů Iniciativy otevřených archivů OAI (Open Archives Initiative, http://www.openarchives.org). Otevřeností je samozřejmě míněn volný přístup k fondům digitálních informací ze strany koncových uživatelů, především je jí však míněn volný přístup ze strany libovolných informačních systémů (včetně internetových vyhledávačů), které pomocí specifických programů (harvesterů) mohou volně „sklízet metadata“ (metadata harvesting), aby na základě nich mohly poskytovat nadstavbové komplexní služby. Doporučovaným standardem pro volnou komunikaci metadat od poskytovatelů metadat k poskytovatelům služeb je v současné chvíli protokol pro sklizeň metadat OAI-PMH (Protocol for Metadata Harvesting) ve své stabilní verzi 2.0 [LAGOZE, 2003; CARPENTER, 2001], k jehož aplikaci přistoupilo již velké množství systémů, další se připravují. Standard je rozvíjen iniciativou OAI. Archivy, které již aplikovaly protokol OAI-PMH, jsou označovány za OAI vyhovující archivy [Eprints.org, 2002, What is OAI-compliance]. Příklad reálného metadatového záznamu z archivu elektronických tisků získaného na základě protokolu OAI-PMH je vidět v další, třetí části na obr. č. 4. Specifikem archivů elektronických tisků je typ archivovaného materiálu. Elektronickým tiskem je míněn digitální text recenzovaného vědeckého článku, a to v době před nebo po jeho recenzování a publikování (zpravidla v časopise nebo konferenčním sborníku). Může tedy jít o tzv. „preprint“ (první návrh textu článku) nebo tzv. „postprint“ (recenzovaný a publikovaný poslední návrh textu článku). Elektronickým tiskem je rovněž míněna jakákoliv další verze textu článku realizovaná v libovolné fázi mezi dvěma uvedenými krajními polohami, jakož i jakákoliv další aktualizace již publikovaného článku [Eprints.org, 2002, What is an Eprint]. Nové verze (všechny se postupně archivují) mohou ve značné míře vznikat na základě odezvy a připomínkování uživatelů a lze tak hovořit o novodobé formě recenzní činnosti. V rámci archivů se rozvíjí i novodobé citování na základě identifikátorů elektronických tisků. Rozvíjejí se také automatické systémy tvorby citačních indexů nad archivy úplných dokumentů. Archiv elektronických tisků budovaný několik let podává unikátní svědectví o rozvoji dané disciplíny v čase i prostoru. Pokud se do archivů ukládají i jiné typy informačních materiálů než jenom elektronické tisky, může se pro ně v praxi uplatňovat již širší pojmenování jako „elektronický archiv“ nebo „digitální knihovna“ aj. Specifickou otázkou archivů elektronických tisků je autorskoprávní problematika. Již výše zmíněný prostor mezi autorem a vydavatelem lze označit téměř za „neuralgický“, v rámci kterého se odehrává nejedna diskuse a nejedno jednání ohledně autorských práv. Pokud jde o preprinty, je v rámci iniciativy volně dostupných archivů rozšiřován názor, že právo copyrightu drží autor, který vlastně nemusí nikoho žádat o povolení uložit text do volně dostupného archivu. Problémy mohou nastat v momentu, kdy autor chce dokument předložit komerčnímu vydavateli. U těchto dokumentů, stejně jako u těch, které již postoupily do recenzního řízení nebo které byly již publikovány, musí nastat jednání s vydavatelem o podmínkách možného uložení dokumentu do volně dostupného archivu. Dalším výrazným specifikem archivů elektronických tisků je tzv. „autoarchivace“ digitálních textů, tedy jejich samostatné uložení do repozitáře archivu ze strany autora (angl. selfarchiving), a také jejich bibliografické zpracování pomocí interaktivního formuláře pro tvorbu metadat. Jejich kontrola je zpravidla náplní práce editorů archivů, zejména pokud jde o údaje věcného charakteru. Archivy mohou být rozdělovány z hlediska místa vzniku dokumentu na archivy lokální, národní či mezinárodní a z hlediska obsahu dokumentu na archivy univerzální, víceoborové nebo oborové či tematické povahy. Archivy mohou být budovány jako centralizované (s jediným repozitářem) nebo distribuované či „virtuální“ (s více repozitáři a centrální databází metadat včetně jednotného rozhraní pro vyhledávání). Distribuované systémy jsou pak často označovány termínem „digitální knihovna“. K nejvýznamnějším mezinárodním archivům elektronických tisků s centralizovaným repozitářem patří například archiv pro fyziku a jiné exaktní vědy arXiv.org (http://arXiv.org) a archiv pro kognitivní vědy CogPrints (http://cogprints.soton.ac.uk). K zástupcům digitálních knihoven mezinárodního rozsahu s distribuovanými repozitáři patří zejména digitální knihovna pro počítačovou vědu NCSTRL (http://www.ncstrl.org) a digitální knihovna disertací a diplomových prací NDLTD (http://www.ndltd.org). Uvedené systémy vznikaly již od počátku 90. let minulého století. Bylo jim věnováno mnoho odborných publikací v zahraničním i domácím tisku [viz např. BRATKOVÁ, 2000, 2002]. Významným rysem archivů elektronických tisků je lepší viditelnost, dostupnost, využívání a vliv uložených dokumentů na další a rychlý rozvoj disciplín. Po roce 2000 dochází celosvětově k pozvolně se zvyšujícímu nárůstu archivů elektronických tisků a stejně tak počtu dokumentů v nich uložených. Trendem je rozvoj archivů budovaných buď na oborové bázi, nebo na bázi víceoborové. Archivy mohou být budovány i například v rámci nějaké univerzity zahrnující více oborů. Jedním z těchto oborů je i informační věda (včetně knihovnictví, komunikace, informačních technologií, archivnictví, vydavatelství, muzejnictví aj.). Text tohoto článku je věnován právě těmto archivům a bude sledovat i jejich různorodé profily, pokud jde o průniky k dalším disciplínám. Dalším směrem, který bude sledován, je integrace různorodých zdrojů z oboru informační vědy do jednotné informační služby s výraznou novodobou bibliografickou funkcí (viz systém DoIS ve 4. části). Archivy z oblasti informační vědy využívají, tak jako archivy z jiných oblastí, již zavedené aplikační programy. Patří k nim například program „DSpace“ (http://www.dspace.org/), vyvinutý na Technologickém institutu v Massachusetts (MIT, USA), zejména však v Evropě dobře známý program „Eprints.org“ (http://software.eprints.org/). Na konci roku 2003 byl instalován v 113 archivech (95 ve verzi 2 a 18 ve verzi 1). Program Eprints.org je aplikován u všech dále v textu analyzovaných archivů z oblasti informační vědy, proto je vhodné uvést o něm několik základních informací. Je zdarma dostupný (free software) pro nekomerční využití (GNU GPL, General Public Licence) a patří k tzv. otevřeným zdrojům (Open Sources). Program je tedy možné upravovat a rozšiřovat. Vznikl na fakultě počítačové vědy na Univerzitě v Southamptonu (Velká Británie) a jeho autorem je Robert Tansley (verze 1). Je novodobou verzí softwaru, který vznikl již v roce 1991 a je doposud využíván výše zmíněným archivem arXiv.org a který později adaptoval také archiv CogPrints. Rozvoj programu je finančně podporován britskou Společnou komisí pro informační systémy JISC (The Joint Information Systems Committee, http://www.jisc.ac.uk/) a americkou Národní vědeckou nadací NSF (The National Science Foundation, http://www.nsf.gov/). Design a kódování 2. verze programu připravil Christopher Gutteridge s dalšími spolupracovníky (Mike Jewell, Al Riddoch a Gui Power). Nejnovější verze programu (2.3.0), která přichází s dalším zlepšením řady funkcí, je právě testována. Instalace softwaru Eprints je relativně snadnou záležitostí, vyžaduje jistý prostor na webserveru, jistý čas na jeho instalaci ze strany správce systému a zejména pak jeho údržbu. Kvalitní budování archivu elektronických tisků vyžaduje, podle toho jak je veliký a jak je vnitřně strukturován, určitý tým editorů (ediční radu apod.), kteří, kromě jiného, zabezpečují také obsahové uspořádání archivu. 3 Archivy elektronických tisků v oboru informační vědy V následující části budou uvedeny podstatné charakteristiky trojice existujících archivů elektronických tisků jako novodobých systémů pro saturování potřeb odborníků z oboru informační vědy. Vznikly v nedávné době a jádro jejich systémů je provozováno na základě jediného aplikačního programu charakterizovaného v předcházející části. Texty jednotlivých dílčích částí prezentují podstatné znaky archivů. Kromě okolností jejich vzniku a provozu je největší pozornost věnována specifikům jednak vstupních procesů (typologii dokumentů, autoarchivaci a metadatovému popisu), jednak procesů výstupních (vyhledávacích a jiných služeb). V řadě parametrů jsou archivy mezi sebou porovnávány. 3.1 Archiv elektronických tisků pro vědy o informa cích a komunikaci „@rchiveSIC“ Prvním ze tří archivů elektronických tisků je francouzský Archiv pro vědy o informacích a komunikaci @rchiveSIC (Archive en Sciences de l‘Information et de la Communication, SIC, http://archivesic.ccsd.cnrs.fr/), který byl založen v jarních měsících roku 2002 a do úplného provozu uveden jako jeden z prvních v našem oboru již v červnu 2002. Jedním z podnětů k založení tohoto archivu byly alarmující výsledky vzešlé z ankety provedené francouzským ministerstvem výzkumu. Anketa sledovala využívání vědeckých či odborných periodik v oblasti věd o informacích a komunikaci (SIC). Bylo zjištěno, že ze 263 světových periodik pouze 17 titulů bylo známo alespoň jednomu odborníkovi ze dvou. Z 40 titulů přímo francouzských periodik jich bylo známo jenom 12 alespoň jednomu ze dvou odborníků [GALLEZOT, 2003, Des revues SIC]. Odpovědí na tuto situaci byl návrh na založení otevřeného archivu pro vědy o informacích a komunikaci. Jeho tvůrci a správci zároveň, tj. Gabriel Gallezot z Národní vysoké školy věd o informacích a knihovnách (ENSSIB) v Lyonu, Ghislaine Chartronová z Regionální jednotky pro výchovu v oblasti vědeckých a technických informací (URFIST) v Paříži a Jean-Max Noyer z Univerzity Paříž 7, využili příznivé situace vzniku Centra pro přímou vědeckou komunikaci (Centre pour la Communication Scientifique Directe, http://ccsd.cnrs.fr) v rámci francouzského Národního centra pro vědecký výzkum (CNRS), které již v té době provozovalo archiv pro elektronické disertace (http://tel.ccsd.cnrs.fr) a zrcadlové sídlo světového archivu pro přírodní vědy arXiv.org (http://ccsd.cnrs.fr/arXiv.html). Archiv @rchiveSIC byl založen na serveru výše zmíněného Centra [GALLEZOT, 2002, část VI]. Na jeho založení se dále významně podílely jednotky URFIST v Paříži a v Nice, Výzkumná skupina pro informační služby (GRESI), která do roku 2003 pracovala v rámci ENSSIB, a Výzkumné centrum pro komunikaci obrazových informací Oddělení pro vzdělávání v oblasti kinematografie, komunikace a informací (CCI/CRECI) na Univerzitě Paříž 7. Francouzský archiv byl jedním z prvních, který v oboru informační vědy adaptoval software Eprints. Byl a stále ještě je provozován ve verzi 1.1.1. Ve srovnání s jinými archivy má však lepší design prezentace informací a výstupů. Jako jediný umožňuje navíc vyhledávání v úplných textech. Adaptaci softwaru pro potřeby @rchiveSIC připravil Christian Rossi. Nová verze 2.2 zatím nebyla implementována, takže systém nevyužívá některých nových funkcí (například prezentaci citací z uloženého dokumentu a jejich propojování na úplné texty dokumentů - srovnej s verzí 2.2 nasazenou u archivů DLIST a E-LIS). Nicméně, archiv je již plně připraven na integraci archivů pomocí sdílení metadat na základě protokolu OAI-PMH ve verzi 2.0 [LAGOZE, 2003]. Archiv je od 19. prosince 2002 zaregistrován v centrále iniciativy OAI (http://www.openarchives.org/Register/BrowseSites.pl) včetně bázového URL (http://archiveSIC.ccsd.cnrs.fr/perl/oai20). Metadata archivu jsou tudíž dosažitelná pro návazné informační služby včetně internetových vyhledávacích služeb, jako je Google. Archiv @rchiveSIC je primárně určen komunitě frankofonních učitelů a badatelů z oblasti věd o informacích a komunikaci, lze ho tedy označit za mezinárodní (občas bývá označován jako archiv národní povahy). Dominuje v něm v současné chvíli francouzština, ukládat dokumenty je ale možné také v jazycích dalších (anglickém, německém, italském nebo španělském) [GALLEZOT, 2003]. K uložení elektronického dokumentu je nutná, tak jako v dalších archivech, registrace autora, který poskytuje základní údaje o sobě a na základě nich obdrží ze strany systému ID a heslo pro vstup do modulu pro ukládání dat. V rámci ukládacího procesu autor vyplňuje metadata o dokumentu pomocí webového formuláře. Archiv má vědecký a výzkumný ráz. Přijímány jsou, pokud jde o typy dokumentů, pouze články nebo zprávy, které mohou mít trojí publikační status: 1. dokumenty připravené v rámci aktuálně prováděného výzkumu, kdy si autor přeje rychle sdílet nové poznatky, 2. dokumenty předložené v dané chvíli k recenzování z důvodu publikování ve vědeckém časopise nebo na konferenci a 3. dokumenty připravené již k publikování. Typologií přijímaných dokumentů se francouzský archiv výrazně liší od dalších dvou analyzovaných archivů. Nejvíce dodržuje definici termínu „elektronický tisk“. Elektronické dokumenty jsou přijímány ve 4 formátech: RTF, DOC, PDF a HTML. Formáty PDF a HTML jsou generovány automaticky, pokud autor uloží dokument ve zbývajících dvou formátech. Tuto službu nabízí zatím jenom francouzský archiv. Definitivní uložení dokumentu podléhá rozhodnutí odborného moderátora archivu, který ho může případně i odmítnout. Jde o minimální filtraci dokumentů danou cíli archivu, nikoliv o posuzování vědecké hodnoty jejich obsahu [GALLEZOT, 2003]. Lze říci, že se tím ve francouzském archivu udržuje vysoký standard kvality příspěvků a zběžná analýza obsahů zahrnutých dokumentů to potvrzuje. Archiv v současné době obsahuje velké množství velmi kvalitních dokumentů známých osobností francouzského výzkumu v oblasti věd o informacích a komunikaci. Potěšitelné a inspirativní je, že se v něm již v tuto chvíli objevuje základní jádro výstupů z výzkumů v oblasti věd o informacích podporovaných finančně státem. Popis dokumentů odpovídá standardu Dublinského jádra. Přesná specifikace prvků není v rámci veřejně dostupné dokumentace systému k dispozici, proto nebude na tomto místě interpretována. Podobá se však specifikacím v dalších analyzovaných archivech (viz části 3.2-3.3). Příklad výstupního metadatového záznamu dokumentu z roku 2003 je na obr. č. 3, jeho komunikát ve struktuře XML a sémantice Dublinského jádra, který byl získán pomocí příkazu GetRecord OAI-PMH přes kvalitní testovací systém iniciativy OAI „Repository Explorer“ (http://oai.dlib.vt.edu/cgi-bin/Explorer/oai2.0/testoai), je prezentován na obr. č. 4. Pokud jde o věcné zpracování, pak autor především zatřiďuje svůj dokument do některé z 21 nabízených předmětových (tematických) kategorií (oblastí) , jejichž přehled je v originále a v překladu k dispozici na obr. č. 1 a 2. Povinně musí vybrat alespoň jednu kategorii, volitelně může vybrat i další dvě. Pokud si nevybere z této nabídky, zatřídí dokument pod kategorii „Ostatní“ a navrhne moderátorovi novou kategorii, která může být do seznamu doplněna. Každá předmětová kategorie má svého vlastního moderátora. V případě, že autor nezařadil dokument správně, provede opravu moderátor. Obr. č. 1: předmětové kategorie archivu @rchiveSIC v původním jazyce uvedené v rámci rejstříku pro vyhledávání [převzato 2004-01-15] Seznam předmětových kategorií archivu @rchiveSIC odráží aktuální přístup francouzských odborníků k vymezení oboru, který u nás označujeme termínem „ informační věda“. Na rozdíl od amerického pojetí (prezentovaného například i v rámci archivu DLIST - Digital Library of Information Science and Technology), které rozšiřuje název oboru v současné době o oblast informačních technologií (Information Science and Technologies), je francouzské pojetí typické jednak tím, že jde o více věd o informacích, jednak tím, že je název rozšířen v tomto případě o slovo „komunikace“ (se zdůrazněním na komunikaci ve vědě). V předmětové kategorizaci @rchiveSIC se tak objevuje řada příbuzných oborů (muzeologie, studia masmédií, sociologie, ekonomika, umění, estetika aj.). Obr. č. 2: předmětové kategorie archivu @rchiveSIC v českém překladu [stav k 15. 1. 2004] Obr. č. 1 a 2 odrážejí aktuální stav počtu uložených dokumentů i jejich rozdělení do předmětových kategorií z hlediska obsahu. K 15. lednu 2004 bylo v archivu uloženo celkem 308 dokumentů, jimž bylo dohromady přiděleno 630 předmětových kategorií (v průměru je jeden dokument opatřen dvěma kategoriemi). Nejvíce dokumentů je zařazeno pod kategorii Sociologie informací a komunikace (80 dokumentů zahrnujících zejména výsledky ze sociologických výzkumů), dále pod kategorii Teorie informací a komunikace (53), Elektronické publikování (42), Územní správní úřady (40 dokumentů věnovaných zejména komunikaci informací v rámci státní a místní správy), Hypertext a hypermédia (39), Vědecká komunikace a informace (37) a Masmédia (36). Věcný popis dále zahrnuje abstrakt a volně tvořená klíčová slova ve francouzštině (pravděpodobně povinné prvky) a v angličtině (pravděpodobně nepovinné). Jak dokládá srovnání jednotlivých prvků z obr. č. 3 a 4, je komunikace záznamů přes protokol OAI-PMH (na základě nekvalifikovaného Dublinského jádra) v současné chvíli nastavena tak, že exportovaný záznam nezahrnuje některé formální prvky (formát aj.) a klíčová slova ve francouzštině. Předmětové kategorie jsou exportovány pouze v anglické verzi. Obr. č. 3: výstupní metadatový záznam preprintu příspěvku z komerční publikace uloženého v bázi archivu @rchiveSIC včetně nabídky k napsání komentáře [převzato 2004-01-15] Archiv @rchiveSIC je sice primárně určen pro frankofonní odborníky, rozhraní systému je ale připraveno i v jazyce anglickém (včetně seznamu předmětových kategorií) pro uživatele z jiných jazykových oblastí. Poskytuje, kromě komplexních služeb pro autory ukládající dokumenty, řadu dalších standardních i nadstavbových služeb. Jde především o vyhledávání informací. Systém hned na úvodní stránce nabízí krátký seznam aktuálně uložených dokumentů , pokud byly uloženy. V rámci vyhledávání v režimu prohlížení nabízí zajímavý rejstřík 10 nejvyužívanějších dokumentů k danému datu a samo zřejmě také rejstříky dokumentů řazených podle autorů a předmětových kategorií. V tomto archivu však, na rozdíl od ostatních, chybí rejstřík dokumentů upořádaných podle roku vytvoření/zveřejnění. Přímé zadávání dotazu je možné jak v jednoduchém režimu (podle slov z názvu a abstraktu ve francouzštině nebo klíčových slov ve francouzštině, názvu časopisu nebo konferenčního sborníku, autorů a předmětových kategorií dle výběru z řízeného seznamu), tak v režimu pokročilém (podle názvu dokumentu, autorů, názvu časopisu nebo konferenčního sborníku, slov z abstraktu ve francouzštině a angličtině a klíčových slov, předmětových kategorií dle výběru z řízeného seznamu a typu dokumentu). Specifikem francouzského archivu je vyhledávání uložených dokumentů podle identifikátoru (celého identifikátoru nebo jenom čísla). Je vhodné k rychlému nalezení záznamu a dokumentu, ale předpokládá se již dobrá orientace v archivu ze strany uživatele. Unikátní a velmi užitečné, opět ve srovnání s dalšími dvěma archivy, je vyhledávání v úplném textu dokumentu připraveného na základě volně dostupného programu „ht://Dig“(http://www.htdig.org/). Pro registrované uživatele nabízí archiv diskusní fórum. Uživatelé mohou také zasílat komentáře k uloženým dokumentům (Écrire un commentaire - viz na obr. č. 3). Standardní službou je i poskytování signálních služeb (typu Alert) na základě zadaných profilů uživatelů pomocí elektronické pošty s tím, že uživatel sice získává seznam metadatových záznamů, ale může si bezprostředně v prostředí WWW okamžitě stáhnout úplný text. Specifickou službou francouzského archivu je konverze dokumentů do formátu PDF a HTML ze strany pracovníků archivu, a to z důvodu jejich lepší viditelnosti a trvalého uložení (tuto službu neposkytují další dva analyzované archivy). Služba poskytování metadatových záznamů dalším vyhledávacím a jiným informačním službám na základě protokolu OAI-PMH již byla zmíněna výše v textu (viz exportovaný záznam na obr. č. 4).
Obr. č. 4: základní část metadatového záznamu z archivu @rchiveSIC ve struktuře XML exportovaného dle protokolu OAI-PMH pomocí příkazu GetRecord [převzato 2003-12-19] Nezbytnou službou profesionálního charakteru je poskytování statistik uložených dokumentů a uživatelů archivu, kteří buď ukládají dokumenty, nebo pouze odebírají signální výstupy, a také využívání (či návštěvnosti) archivu, která má stoupající tendenci. Tvůrci a správci archivu se již nyní zamýšlejí nad otázkou, jak docílit většího nárůstu dokumentů - navrženo je například ukládání všech statí z kolokvií a konferencí a paralelní ukládání článků z odborných časopisů [GALLEZOT, 2003]. 3.2 Archiv elektronických tisků pro informační vědu a technologie „DLIST“ Druhým archivem elektronických tisků v oboru informační vědy je americká Digitální knihovna informační vědy a technologií DLIST (http://dlist.sir.arizona.edu), která byla uvedena do úplného provozu v říjnu 2002 (testování probíhalo již od 20. června 2002) ve spolupráci Školy informačních zdrojů a knihovní vědy a Arizonského centra pro zdravotnické vědy na Arizonské univerzitě (USA). Lze si všimnout, že v tomto případě je ve jménu archivu elektronických tisků uvedeno slovo „digitální knihovna“. Souvisí to zřejmě jak s rozšířeným záběrem přijímaných typů digitálních dokumentů, tak s budoucím plánovaným zaměřením celého systému vůbec [COLEMAN, 2003c]. K hlavním tvůrcům a správcům archivu patří Anita S. Colemanová a Paul Bracke z výše uvedených institucí. Základním cílem uvedených institucí bylo vytvoření otevřeného, přes WWW dostupného digitálního repozitáře pro uvedený obor. I když se ve jménu archivu vyskytuje pouze termín „informační věda“ (vedle termínu „technologie“), jeho tvůrci často v dokumentaci a literatuře zdůrazňují širší termín „knihovní a informační věda“ (Library and Information Science, LIS) [COLEMAN, 2003a]. Systém elektronického archivu je provozován v tomto případě již ve verzi 2.2 programového balíku Eprints.org, který je připraven na sklizeň metadat ze strany návazných služeb na základě protokolu OAI-PMH (bázové URL: (http://dlist.sir.arizona.edu/perl/oai2). K 15. 1. 2004 ale nebyla ještě provedena registrace archivu v centrále OAI. Systém běží pod operačním systémem Linux. Databáze je uložena v systému MySQL a prezentace informací na WWW je zajišťována pomocí webserveru Apache a programovacího jazyka Perl. Doplňkový program Webalizer (otevřený zdroj) zajišťuje analýzy a zprávy o využívání archivu ze strany uživatelů. Typologie zahrnovaných materiálů ( dokumentů) je ve srovnání s francouzským archivem velmi široká. Zjevně nejde jenom o elektronické tisky. Zahrnuje různé typy digitálních materiálů, ale jeho specifikem je větší množství typů materiálů určených pro potřeby výuky a informační gramotnosti. Do archivu mohou být zařazovány bibliografické instruktážní materiály (bibliografie a přehledové seznamy), knihy a jejich kapitoly, edice monografických materiálů, konferenční sborníky, konferenční referáty, konferenční vývěsky (postery), datové soubory (například z bibliometrických výzkumů), zprávy fakult nebo ústavů ze sledovaných oborů, průvodce, interaktivní materiály, časopisy (online stránkované i nestránkované) a jejich články, knihovnické instruktážní materiály (včetně materiálů typu „help“), články z novin a magazínů, preprinty, prezentace, technické a výzkumné zprávy, disertace, sylaby, osnovy kursů a plány cvičebních lekcí, výukové materiály (k počítačovým programům a k tvorbě a využívání databází) a jiné. Pokud jde o publikační status ukládaných materiálů, může jít o materiály již publikované (nutné je v tomto případě dodání dokumentu v digitální formě vytvořené autorem, nikoliv vydavatelem, např. u souborů PDF), materiály, které mají být publikovány, nebo i materiály nepublikované. Archiv DLIST zahrnuje v současné době dokumenty v angličtině [COLEMAN, 2003a, část 1]. Autor ukládá elektronický dokument přímou cestou na server (uploading), popřípadě může specifikovat URL, z něhož může být dokument transferován pracovníky archivu. V obou případech bude kopie díla uložena v databázi systému DLIST. Autor zároveň vyplňuje metadata, jejichž současná specifikace vychází z Dublinského jádra. Zahrnuje (prvky uvedené kurzivou nejsou povinné): 1. Typ elektronického tisku (viz položky typologie materiálů) 2. Novější verze k (identifikátor předchozí verze doku mentu uloženého v archivu) 3. Komentář k (identifikátor komentovaného dokumentu uloženého v archivu) 4. Status (nepublikován, v tisku, publikován) 5. Veřejná doména (vyplňuje se v případě, že jde o starší a až nyní zveřejňovaný dokument jiného autora) 6. Jména editorů 7. Název (dokumentu uloženého v archivu) 8. Předmětové kategorie (povinně jedna kategorie, maximálně dvě navíc volitelně) 9. Rok ( zveřejnění nebo výroby ukládaného dokumentu) 10. Abstrakt 11. Konference (úplné jméno konference) 12. Edice (název edice nebo souboru knih) 13. Datum konference 14. Lokace (místo konání konference) 15. Ročník (časopisu, v němž byl zveřejněn článek) 16. Číslo (časopisu, v němž byl zveřejněn článek) 17. Nakladatel 18. Komentář k (úplný bibliografický záznam komentova ného dokumentu uloženého v jiném archivu) 19. Alternativní lokace (URL jiných míst ukládaného dokumentu) 20. Klíčová slova (volně tvořená) 21. Doplňkové informace 22. Bibliografické odkazy (seznam citované/odkazované literatury určený pro potřeby tvorby citačního rejstříku) 23. Poznámky a návrhy (určené editorům archivu) 24. Formát (PDF, HTM, HTML, XLS, PPT, TEXT, Rich Text Format, PostScript, ASCII, DOC) 25. Doplňkové informace k formátu uloženého dokumentu 26. Stupeň bezpečnosti (lze limitovat přístup k dokumentu pouze pro personál archivu) Po vyplnění metadat připojuje autor elektronický soubor, popř. více souborů, a ukončuje celou vstupní proceduru odesláním příslušné funkce směrem do systému. Autor tím také předává práva na uložení svého dokumentu v archivu a na jeho volné využívání ze strany uživatelů. Je však nezbytné, aby si autor sám hlídal případnou kolizi práv ke zveřejnění dokumentu, zejména pokud jde o komerční vydavatele jeho dokumentu. Obr. č. 5: Taxonomie archivu DLIST v češtině se zachováním původního pořadí podle anglické abecedy [převzato 2004-01-15] Obsah repozitáře archivu DLIST tvoří v tuto chvíli digitální dokumenty z oblasti knihovní a informační vědy (Library and Information Science, LIS) a informačních technologií (Information Technologies, IT). Věcný popis zahrnuje především zatřiďování dokumentu do alespoň jedné z nabízených předmětových kategorií. Taxonomie archivu DLIST, prezentovaná v rámci prohlížení rejstříku předmětových kategorií, zahrnuje v současné době 83 navržených položek, z nichž se po ročním provozu uplatnilo 48 (viz obr. č. 5). Seznam předmětových kategorií je otevřený a ukládající autoři mohou případně navrhovat položky nové. Nicméně, již na počátku tvůrci archivu vymezili dvě základní oblasti, kterým bude věnována mimořádná pozornost: 1. informační (a počítačová) gramotnost , (jde zejména o zprávy, bibliografické informační materiály, instruktážní příručky apod.), 2. informetrie (a bibliometrie) (jde zejména o publikace z výzkumů a doprovodné datové soubory). Aktuální přehled četností obsazených kategorií prozrazuje obr. č. 5 (k 15. lednu 2004). V archivu se k tomuto datu nacházelo celkem 97 dokumentů, kterým bylo přiděleno dohromady 179 kategorií (v průměru šlo o necelé 2 kategorie přidělené jednomu dokumentu). Roční nárůst dokumentů se v roce 2003 (27 dokumentů) oproti roku 2002 (29 dokumentů) prakticky nezměnil a jde o nárůst velmi malý ve srovnání s dalšími dvěma archivy. Příčin, proč americký archiv vzbuzuje tak málo pozornosti většího počtu autorů z oblasti informační vědy, může být více. Jednou z nich může být i fakt, že obor je v USA zabezpečen velkým počtem komerčních produktů (včetně časopisů) a služeb, které jsou jim snadno dostupné. Autoři tudíž nejsou, alespoň prozatím, motivováni k ukládání kopií dokumentů, i kdyby tomu vydavatel nebránil, do volně dostupného archivu. Prozatím se v archivu DLIST nalézá největší počet dokumentů věnovaných digitálním knihovnám (16), informační gramotnosti ve spojení s knihovnickými instrukcemi (dohromady 16), bibliometrii ve spojení s informetrií (14), studiím v oblasti vědy a technologií (13) a problematice akademického knihovnictví (8). Obr. č. 6: výstupní minimální metadatový záznam prezentace A. Colemanové ve formátu PPT uložené do repozitáře archivu DLIST dne 19. března 2003; přístup k dokumentu je (dočasně) omezen pouze pro personál obsluhující archiv [převzato 2004-01-15] Archiv DLIST nabízí řadu standardních služeb, nabídka ovšem zatím není tak bohatá jako u archivu francouzského. Služby pro ukládající autory byly již zmíněny výše. V rámci vyhledávání informací nabízí archiv prioritně prohlížení seznamu nových přírůstků za poslední týden. Dále lze vyhledávat informace pomocí rejstříků dokumentů uspořádaných podle roku zveřejnění a podle předmětové kategorie. Předmětovou kategorii si uživatel vybírá klikacím způsobem, smysl má ovšem jenom klikání na položky, které mají uveden alespoň jeden výskyt v databázi indikovaný příslušnou arabskou číslicí. Po získání úplného záznamu (viz obr. č. 6) lze v dalších krocích buď volit úplný text dokumentu, nebo navigovat dále pomocí hyperodkazů na další záznamy (minimálně podle předmětové kategorie). Protože archiv DLIST je provozován již ve verzi 2.2, je možné již u některých záznamů vidět také navigaci ze záznamů citované literatury pomocí odkazu SEEK, stejně jako tomu je i u archivu E-LIS (viz další dílčí část). Přímé formulování dotazu lze realizovat buď v jednoduchém režimu (podle slov z názvu, abstraktu a klíčových slov, autorů a editorů a roku zveřejnění), nebo v režimu pokročilém (podle slov z názvu dokumentu, autorů, slov z abstraktu, klíčových slov, předmětových kategorií, typu dokumentu, jména konference, pořadatelské organizace konference, editorů, publikačního statusu, vydavatele a roku zveřejnění). Registrovaní uživatelé mohou využívat jednak diskusního listu archivu (DLIST listserv), jednak mohou získávat signální služby (typu Alert) na základě zadaných profilů pomocí elektronické pošty. Výstupy statistického charakteru patří k velmi sledovaným jak ze strany archivu, tak ze strany archivů konkurenčních, ale i ze strany běžných koncových uživatelů. Statistika využívání archivu DLIST od jeho počát ku k lednu 2003 vykázala, kromě jiného, že 6. místo ve využívání obsadili uživatelé z České republiky (po USA a Kanadě) [COLEMAN, 2003a, část 8]. Jak bylo uvedeno výše, není archiv DLIST prozatím příliš vyhledávaným archivem ze strany autorů dokumentů. Jeho celkový fond je nejmenší ze všech tří analyzovaných archivů. I to byl zřejmě jeden z důvodů jeho nové plánované inovace, která míří k rozšíření archivu o nové moduly, které by dohromady vytvořily nový systém vyššího řádu nazvaný „DLISTConnection“. Koncepce plánovaného systému je představena v přípravné studii ke grantovému projektu, která je uložena v archivu DLIST [COLEMAN, 2003c]. Systém DLISTConnection je navrhován jako budoucí služba pro informační a technologickou gramotnost (ITL, Information and Technology Literacy), která by měla významně podpořit gramotnost ve vědě a v oblasti zdravotnictví a která by se zároveň stala významnou komponentou systému americké Národní vědecké digitální knihovny NSDL (National Science Digital Library, http://nsdl.org/). Autoři projektu předpokládají, že k poskytování komplexních služeb systému DLISTConnection bude vytvořen jako jádro speciální digitální fond ITL materiálů, tj. databáze cca 3000 výukových objektů (instruktážní materiály, dokumentace k softwarům, průvodce a manuály k různým databázím a jiné výukové objekty). Předpokládá se jejich precizní metadatový popis. Jak konstatují autoři projektu, právě tyto typy materiálů nejsou v současné době předmětem systematického sběru systému NSDL [COLEMAN, 2003c, I. Purpose]. Pro splnění tohoto cíle bude nezbytné stávající specifikaci metadat archivu DLIST rozšířit o další prvky. Plánována je také podrobná specifikace metadat pro potřeby autorskoprávní ochrany získaných materiálů (řada z nich bude transferována do systému na základě dohod s komerčními producenty těchto materiálů). Nezbytnou součástí projektu bude také příprava automatického toku všech informací včetně metadat na základě principů a protokolů OAI. Testována bude i interoperabilita archivů provozovaných v různých aplikačních programech (jde zejména o programy Eprints.org a DSpace). K testování výstupů systému DLISTConnection budou vybrány speciální komunity americké populace - vedle profesionálů působících v oblasti informační a technologické gramotnosti půjde zejména o reprezentanty komunity afrických Američanů a původních Američanů, u kterých se předpokládá velmi citlivé a tudíž účinné vyhodnocování jednotlivých výstupů systému DLISTConnection [COLEMAN, 2003c, VIII. Impact and Expected Results]. 3.3 Archiv Elektronické tisky v knihovní a informační vědě „E-LIS“ Archiv Elektronické tisky v knihovní a informační vědě E-LIS (Eprints in Library and Information Science, http://eprints.rclis.org) je nejmladším z trojice analyzovaných otevřených archivů v oboru knihovní a informační vědy. Do provozu byl sice uveden až v lednu 2003, podařilo se mu však k dnešnímu datu získat první místo co do objemu uložených dokumentů. Archiv E-LIS byl založen jako rozšíření již existující služby RCLIS (Research in Computing, Library and Information Science, http://rclis.org/) a zejména jeho dílčí služby DoIS (http://dois.mimas.ac.uk/), které bude věnována následující 4. část textu. Cílem bylo podpořit otevřený přístup k dokumentům reprezentujícím výzkumné aktivity v oboru informační vědy v globálním rámci. Má otevřený mezinárodní ráz, autoři v něm mohou publikovat dokumenty bez geografických nebo jazykových omezení [BARRUECO, 2003b, část 4]. Základním doporučovaným jazykem je nicméně angličtina. Pokud je dokument v jiném jazyce, požaduje se uložení minimálně abstraktu v angličtině. Z hlediska obsahu prozatímní množiny uložených dokumentů by archiv E-LIS mohl být označen i jako archiv evropský, velké množství literatury je například italské nebo španělské provenience, uloženy byly také již dokumenty v srbochorvatštině. Systém zahrnuje jak publikovanou, tak nepublikovanou literaturu z oboru knihovní a informační vědy (včetně informačních technologií a příbuzných disciplín). V tom se podobá archivu DLIST. Archiv E-LIS je provozován v nejnovější revidované verzi 2.2.1 programu Eprints.org. Je rovněž plně připraven na integraci archivů pomocí sdílení metadat na základě protokolu OAI-PMH (verze 2.0). Od 20. ledna 2003 je zaregistrován v centrále iniciativy OAI včetně bázového URL (http://eprints.rclis.org/perl/oai2). Metadata archivu jsou tedy dosažitelná pro všechny návazné informační služby. Na automatický sběr metadat z tohoto archivu je rovněž připravována služba DoIS (viz další část). Systém je provozován na serveru italské meziuniverzitní organizace CILEA. Využit je operační systém Linux (RedHat 7.3). Databáze je uložena v databázovém systému MySQL a prezentace informací na WWW je zajišťována dynamicky pomocí web serveru Apache a souboru skriptů v jazyce Perl. Archiv E-LIS je otevřený, jak deklarují jeho představitelé, maximálnímu počtu autorů [BARRUECO, 2003b, část 4]. I v rámci tohoto archivu je od autorů požadována registrace před prvním uložením dokumentu. Příspěvky podléhají kontrole ze strany editorů z ediční rady systému. Přijímány jsou v podstatě jakékoliv dokumenty včetně sekundárních, jak dokládá i dále uvedená typologie dokumentů. Podobá se téměř zcela typologii archivu DLIST, to znamená, že rovněž v jistém smyslu překračuje definici termínu „elektronický tisk“. Uloženy tedy mohou být bibliografie, knihy a jejich kapitoly, edice monografických materiálů, konferenční sborníky, konferenční referáty, konferenční vývěsky (postery), datové soubory, zprávy fakult nebo ústavů ze sledovaných oborů, průvodce, časopisy (online stránkované i nestránkované) a jejich články, knihovnické instruktážní materiály, články z novin a magazínů, preprinty, prezentace, technické a výzkumné zprávy, sylaby, disertace, výukové příručky a jiné. K typu průvodce jsou zahrnovány ještě příručky (manuály). Zahrnuty nejsou, oproti archivu DLIST, interaktivní materiály a přehledové seznamy. Navíc se vyskytují projektové a obchodní plány. Rovněž typy publikačních statusů jsou stejné: materiály již publikované, materiály, které mají být publikovány, nebo materiály nepublikované. Archiv je tedy vůči autorům (velké množství z nich tvoří knihovníci), dá se říci, velice vstřícný a tak se poměrně rychle zaplňuje příspěvky. Na počátku roku 2004 jich bylo již více než 400. V tuto chvíli lze konstatovat, že jeho obsah odráží velmi čilé aktuální dění v daném oboru (určitě) v evropském kontextu. V řadě případů jde i o kratší popisné příspěvky nebo PPT prezentace z konferencí, které primární výzkum a vývoj odrážejí jenom sekundárně (v několika případech se vyskytují duplicity jednoho základního příspěvku). V tuto chvíli to snad není na závadu, ovšem pokud by se archiv rychle rozrůstal, není vyloučeno, že vyvstane potřeba nastavení dalších limitů pro příjem dokumentů. Archiv přijímá dokumenty ve velkém množství formátů: PDF, PostScript, TeX, LaTeX (DVI), HTML, XML, ASCII, PPT, DOC a RTF, avšak alespoň jeden z formátů dokumentu, který je ukládán, musí být ve formátu HTML, PDF, PostScript nebo ASCII. Doporučovanými formáty jsou však formáty PDF a HTML. Před vlastním uložením dokumentu autor vyplňuje metadata o dokumentu. Jejich skladba je podobná jako v archivu DLIST, takže výčet prvků na tomto místě není nutné opakovat. Otázky copyrightu jsou ze strany archivu neustále sledovány. Dokumenty uložené v archivu jsou chráněny na základě copyrightu, který drží autor sám (v případě preprintu). V případě postprintů se autoři sami musejí postarat o to, aby ukládaný dokument nebyl nějakým způsobem omezen z hlediska copyrightu. Jde zejména o dokumenty publikované dříve někde jinde (pak záleží na formulaci podepsané smlouvy s vydavatelem a na jeho případném dodatečném souhlasu s uložením dokumentu do otevřeného archivu elektronických tisků). Je doporučováno, aby byl do archivu například uložen příspěvek ve vlastním PDF formátu, nikoliv formátu, který připravil nakladatel časopisu, v němž byl příspěvek publikován. Specifikem archivu E-LIS je jeho třídění JITA (http://rclis.org/internal/jita.txt). Jde v podstatě zatím jen o jednoduché schéma předmětových kategorií. Tvůrci systému zatím kvůli jednoduchosti navrhli jenom jedinou úroveň dělení. Třídění bylo připraveno na základě sloučení pů vodního třídění „NewAgentTopic“, které vytvořil a do roku 1998 udržoval Mike Keen (Aberystwyth, Velká Británie), a třídění německého časopisu „Review of Information Science (RIS)“, které původně vytvořil Donald Soergel. Zkratka JITA pochází z křestních jmen zakladatelů archivu E-LIS i jeho třídění (José Manuel Barrueco Cruz, Imma Subirats Coll, Thomas Krichel a Antonella De Robbio). Obr. č. 7: základní schéma třídění JITA prezentované v rámci předmětového rejstříku archivu E-LIS [2004-01-15] Ve srovnání s výše charakterizovanými dvěma archivy je třídění JITA více propracované. Zahrnuje v současné době 12 hlavních předmětových kategorií, označených písmeny velké abecedy (originál schématu viz obr. č. 7) a doplněných slovní hodnotou. Kategorie jsou v celkovém schématu zařazeny do tří úrovní (viz obr. č. 8). Kategorie A-B patří do obecné úrovně (zahrnuje teoretické otázky a obecnosti), kategorie C-G do střední úrovně (zahrnuje otázky uživatelů informací, typů knihoven, otázky publikování a právních aspektů, řízení, informačního průmyslu, profese a výchovy v oboru) a kategorie H-L do úrovně specifické (zahrnuje konkrétní otázky informačních zdrojů, zpracování informací, informačních a technických služeb v knihovnách, archivech i muzeích a technologií). Základní schéma, publikované na stránkách sídla archivu, je vnitřně doplněno výčtem dílčích předmětových kategorií (celkem 124) zahrnutých do kategorií základních. V průměru tedy na jednu základní kategorii připadá asi 10 dílčích (nejsou ale nijak dále pořádány). Jejich úlohou je zřejmě jenom orientace pro autory při výběru konkrétní základní kategorie ( popř. dalších 2) pro jimi popisovaný a ukládaný dokument. Při bližším náhledu lze zjistit jisté duplicity či překrývání dílčích kategorií napříč základními kategoriemi, což by mohlo uživatele někdy zmást. Nicméně celé schéma je, jak sami tvůrci sdělují, otevřené a jeho úpravu a zdokonalování lze předpokládat [BARRUECO, 2003b, část 4.4]. O schématu je možné diskutovat, nicméně je třeba ocenit úsilí tvůrců elektronického archivu při pokusu o nové oborové pořádání informací. Je dokladem toho, že ani novodobé systémy se bez profesionálního pořádání nemohou obejít, ačkoliv i na to nejsou jednotné názory. V již dříve citované dokumentaci softwaru Eprints.org jsou zájemci ujišťováni, že v archivech elektronických tisků není klasifikací zapotřebí, neboť je nepravděpodobné, že by klasifikační systémy, které známe z významných oborových databází, přinesly lepší výsledky, než je booleovské vyhledávání dokumentů přes index úplných textů googlovského stylu, zejména pokud je obohaceno o novodobé výpočty citovanosti, obsahové relevance, využívání ze strany uživatelů apod. [Eprints.org, 2002, část 26, Classification]. K 15. lednu 2004 archiv obsahoval již 411 dokumentů. Z hlediska obsahového jim bylo přiděleno celkem 623 předmětových kategorií (v průměru 1,5 kategorie na jeden dokument). Aktuální obsazení předmětových kategorií prozrazuje, že největší množství uložených dokumentů náleží do tříd specifické úrovně. Zahrnují zejména praktické a technologické otázky rozvoje informačních zdrojů, jejich systémů a služeb. Největší obsazení má kategorie Zpracování informací pro informační služby (Informační funkce a techniky) (158 dokumentů), dále kategorie Informační zdroje, nosiče a kanály (135 dokumentů), kategorie Informační a knihovnické technologie (85), kategorie Publikování a legislativní otázky (57) a kategorie Využívání informací a sociologie informací (47). Kategorie obecné i střední úrovně jsou obsazovány výrazně méně. Obsazování prakticky a technologicky orientovaných kategorií pravděpodobně souvisí i s výše uvedenou skutečností týkající se vstřícného přístupu archivu k autorům ukládaných dokumentů. Roční nárůst dokumentů se v roce 2003 (157 dokumentů) oproti roku 2002 (90 dokumentů) výrazně změnil, jde o nárůst relativně vysoký ve srovnání s dalšími archivy (je však třeba poznamenat, že v daném čase může do archivu přibýt i starší dokument, takže čísla uváděná v rámci rejstříku roků nevypovídají přesně o ročním nárůstu dokumentů do archivu). Obr. č. 8: základní schéma třídění JITA archivu E-LIS v českém jazyce [2004-01-15] Obr. č. 9: výstupní metadatový záznam preprintu článku z časopisu uloženého v archivu E-LIS s odkazy na úplný text a záznamy citované literatury [převzato 2004-01-15] Archiv E-LIS nabízí rovněž řadu standardních služeb pro koncové uživatele. V rámci vyhledávání informací nabízí prioritně již z úvodní stránky prohlížení seznamu nových přírůstků za poslední týden. Dále lze vyhledávat informace pomocí rejstříků dokumentů uspořádaných podle roku zveřejnění a podle předmětové kategorie. Po získání úplného záznamu (viz obr. č. 9) lze volit úplný text dokumentu nebo navigovat dále pomocí hyperodkazů na další záznamy (podle autora, předmětové kategorie) a také (u některých záznamů) pomocí odkazů u citované literatury (viz odkaz SEEK na obr. č. 9). Přímé formulování dotazu lze realizovat buď v jednoduchém režimu, a to buď přímo z hlavní stránky (podle slov z názvu, abstraktu a klíčových slov), nebo ze stránky pro jednoduché vyhledávání (podle slov z názvu, abstraktu a klíčových slov, autorů a editorů a roku zveřejnění), nebo v režimu pokročilém (podle slov z názvu dokumentu, autorů, slov z abstraktu, klíčových slov, předmětových kategorií, typu dokumentu, jména konference, pořadatelské organizace konference, editorů, publikačního statusu, vydavatele a roku zveřejnění). Registrovaní uživatelé mohou využívat diskusního listu archivu a mohou rovněž získávat signální služby (typu Alert) pomocí elektronické pošty na základě zadaných profilů. Výše zmíněná služba propojování citovaných dokumentů s jejich plnými texty (viz odkaz SEEK na obr. č. 9) je novinkou druhé verze programu Eprints.org. Služba je realizována na základě specifického programu „ParaCite Toolkit“ (zkráceně „ParaTools“, http://paracite.eprints.org), který je v současné chvíli integrální součástí programu Eprints [De ROBBIO, 2003, Reference Linking]. Program je schopen rozkládat záznamy citací na jednotlivá metadata a směrovat je ke službě s webovým formulářem pro vyhledávání příslušných doku mentů ve vybraných volně dostupných zdrojích na WWW. Patří k nim báze CiteBase (http://citebase.eprints.org/cgi-bin/search), báze systému ResearchIndex (http://citeseer.nj.nec.com/cs) a index vyhledávače Google (http://www.google.com). Do hry mohou v budoucnu vstoupit zdroje další. Celá procedura má stále experimentální charakter (ne vždy je uživatel uspokojen). Testuje se také propojování na bázi připravovaného standardu OpenURL. 4 Elektronická knihovna a alternativní bibliografická služba pro informační vědu „DoIS“ Pod zkratkou „DoIS“ se skrývá jméno specifické elektronické knihovny hybridního charakteru pro informace o dokumentech z oboru informační vědy a částečně i pro dokumenty samotné, jsou-li k dispozici volně na WWW na mateřských serverech. Je třeba zdůraznit, že jde především o dokumenty pocházející z vědeckovýzkumné činnosti. Plné jméno systému zní „Dokumenty v informační vědě“ (Documents in Information Science). O hybridní charakter jde proto, že systém zahrnuje nejen záznamy dokumentů, které jsou volně dostupné v prostoru Internet, ale také záznamy dokumentů, které dostupné volně nejsou (jde zejména o analytické dokumenty z komerčně dostupných časopisů nebo sborníků). Systém bývá označován také termínem „gateway“ nebo „portál“, zejména pak ale termínem „služba“. O charakter služby v tomto případě půjde nejvíce a budeme mít na mysli především služby bibliografického charakteru (ve formě komunikace metadat o dokumentech). Systém byl založen a do provozu uveden již v roce 1999, a to, jak bylo uvedeno v předcházející části, v rámci služby RCLIS (Research in Computing, Library and Information Science, http://rclis.org/). Služba DoIS je řízena, spravována a udržována mezinárodní skupinou dobrovolníků z různých částí světa. Jde o univerzitní knihovníky, počítačové odborníky a učitele univerzit (také fakult Informační vědy) ze Španělska, Itálie, USA, Indie, Bosny a Hercegoviny aj. Elektronická knihovna je celosvětově volně dostupná a hostuje na serveru Univerzity v Manchesteru (Velká Británie, http://dois.mimas.ac.uk/). Zrcadlové sídlo DoIS je lokalizováno v Itálii (http://www.dois.it). Hlavní úsilí mezinárodního týmu je v tuto chvíli vkládáno do tvorby kvalitních metadat, především metadat bibliografických jednotek, ukládaných dle stanovené metodiky nejdříve v lokálních archivech registrovaných systémem DoIS. Systém je tedy postaven na základě distribuované architektury (viz obr. č. 10). Metadata, která vytvářejí a ukládají výše zmiňovaní dobrovolníci, jsou z lokálních archivů sklízena pomocí harvesteru a na bázi specifického Guildfordova protokolu (Guildford protocol) jsou ukládána v centrální databázi systému. Protokol připravil již v roce 1997 hlavní protagonista systému DoIS Thomas Krichel [KRICHEL, 1997a], který je jinak znám jako jeden z hlavních tvůrců úspěšného systému pro literaturu z ekonomického výzkumu RePEC. Bylo to v době, kdy nebyl ještě k dispozici protokol OAI-PMH. V současné době jsou však v rámci systému DoIS konány přípravy i na příjem metadat ze systémů archivů elektronických tisků, které jsou schopny předávat metadata na bázi protokolu OAI-PMH. Na tuto komunikaci je právě připravován spřízněný archiv E-LIS (viz obr. č. 10). A nic nebrání tomu, aby metadata nebyla sklízena i z oborových archivů dalších (například z archivu @rchiveSIC, jak je znázorněno na obrázku č. 10, nebo archivů dalších). Vzhledem k tomu, že samotný systém DoIS na protokol OAI-PMH není připraven, předpokládá se prozatím konverze metadat z formátu XML/Dublinské jádro do formátu systému DoIS, jímž je formát ReDIF (viz dále v textu). K 15. lednu 2004 obsahovala databáze systému DoIS 11 387 záznamů článků z elektronických časopisů a 3302 záznamů příspěvků z odborných akcí (konferencí, zasedání aj.). Zhruba polovina uložených záznamů (7653) je doplněna hyperodkazem na úplný text dokumentu. Ty jsou uloženy distribuovaně na různých serverech v rámci sítě Internet. V rámci systému se intenzivně provádí i retrospektivní zpracování dokumentů. Pokud jde o konferenční sborníky, plánuje se další rozšíření. Zpracovávány by měly být nové tituly sborníků z významných akcí řady mezinárodních organizací. Tým dobrovolníků systému DoIS doposud zjišťoval a zpracovával dva základní typy dokumentů z oboru informační vědy: 1. časopisy a 2. sborníky z odborných akcí. V současné chvíli jsou již také připraveny specifikace pro popis knižních publikací a softwaru. Popisnou jednotkou je v převážné míře analytikum, tj. článek z časopisu a příspěvek ze sborníku z akce. U plánovaných knižních titulů se budou popisovat i jejich kapitoly. Záměrem správců systému je celosvětové pokrytí, nicméně již z letmého pohledu na seznam pramenů je patrné, že četně jsou zastoupeny prameny ze Španělska a Itálie (zejména ty, které nabízejí volný přístup k úplným textům), což je dáno také složením týmu dobrovolníků. K jádrovým excerpovaným pramenům patří známé, hojně využívané a volně dostupné časopisy, například časopis „Bulletin des Bibliothèques de France“ (cca 450 záznamů), „Ariadne“ (cca 370 záznamů), „D-Lib Magazine“ (cca 300 záznamů) aj. Nicméně, náhled do rejstříku excerpovaných časopisů prozrazuje, že velké množství záznamů reprezentují i články z komerčně dostupných časopisů. Absolutně největší počet záznamů pokrývá produkci prestižního ča sopisu JASIST, který vydává americká společnost ASIST. Počet excerpovaných záznamů z časopisu JASIST dosahuje počtu téměř 1000 jednotek. Obr. č. 10: schéma současné (vlevo) a nově plánované (vpravo) architektury systému DoIS [upraveno, zdroj: BARRU-ECO, 2003b] Záznamy dokumentů jsou připravovány dle specifikace již výše zmíněného formátu metadat ReDIF (Research Documentation Information Format), která vychází z definic známých formulářů IAFA (IAFA templates). Specifikace metadat ReDIF byla původně připravena v rámci výše zmíněného systému pro výzkumné práce a literaturu z oblasti ekonomie RePEc (Research Papers in Economics, http://repec.org/), který je jedním z významných účastníků iniciativy propojování elektronických archivů OAI [KRICHEL, 1997b]. V záznamech metadat je, vedle jiných údajů (velmi důležitý a cenný je abstrakt v anglickém jazyce), podstatný identifikátor (viz obr č. 11 a 12), který je modelován v souladu s požadavky systému DOI (http://www.doi.org). Záznam může také obsahovat odkaz vedoucí k získání plných textů, pokud ovšem nejde o případ komerčně dostupného zdroje (pak adresa na plný text chybí). Na obr. č. 11 je pro představu uveden záznam článku z českého časopisu Národní knihovna ve formátu ReDIF, tedy ve struktuře potřebné v tento okamžik k uložení v bázi DoIS (nejde tedy o záznam v bázi fakticky uložený). Bylo by vítáno, kdyby se záznamy vybraných článků z tohoto časopisu mohly v blízké budoucnosti automaticky dostávat do báze DoIS. Reálný záznam metadat článku publikovaného v časopise JASIST je uveden na obr. č. 12. Byl připraven v jednom z lokálních archivů na serveru Univerzity v Salamance (Španělsko), jehož identifikátor je „RCLIS:jul“. Záznamy pro archiv připravuje jeden z dobrovolníků systému DoIS Julio Alonso Arévalo z Univerzity v Salamance [BARRUECO CRUZ, 2003b, část 2.1]. Po bližším prozkoumání údajů záznamů a jejich srovnání s údaji uvedenými na stránkách časopisu JASIST (http://www.asis.org/Publications/JASIS/index.html) je zřejmé, že je zcela využito údajů z amerického serveru, klíčová slova ve španělštině jsou doplněna ze strany zpracovatele. Zpracovatel pravděpodobně využívá nějakého vlastního programového nástroje na převod základních metadat, nicméně jisté ruční zásahy jsou asi nutné, a proto je třeba tuto práci zvláště ocenit. Pokud by se v blízké budoucnosti začaly budovat na úrovni sídel významných komerčních časopisů volně dostupné databáze metadat popisujících jejich články (nejlépe v souladu s již zmiňovaným protokolem OAI-PMH), mohla by být práce systému DoIS, popřípadě jakéhokoliv dalšího systému, bezproblémová. A bylo by to ku prospěchu jak koncových uživatelů, tak komerčního uživatele samotného. Lze hovořit i o tom, že začíná nová éra mezinárodní oborové bibliografie. Služba DoIS k takovému produktu směřuje, je dostupná zdarma a lze doufat, že i nadále zůstane. Je ale nutné hledat způsoby, jak do tohoto systému postupně zapojit více aktivních účastníků. Stávající tým proto ve své dokumentaci k systému vyzývá k celosvětové spolupráci. Jednou z možností je i zapojení se do archivu elektronických tisků E-LIS, který byl založen v rámci služby DoIS a bude prvním archivem, jehož metadata budou sklízena do databáze DoIS na základě protokolu OAI-PMH (proces se právě připravuje). Porovnáním záznamu článku na obr. 12 se záznamem uvedeným v sídle oficiálního nakladatele časopisu JASIST (Wiley) v digitální knihovně InterScience lze zjistit, že se liší v podstatě jenom na úrovni abstraktu (abstrakt v komerční digitální knihovně je obsáhlejší). Vyhledávání informací z databáze metadat systému DoIS má prozatím jednoduchou povahu. Prvním způsobem vyhledávání je standardní jednoduché prohlížení rejstříků/seznamů : 1. zdrojových (excerpovaných) elektronických časopisů a 2. zdrojových (excerpovaných) konferenčních sborníků. V seznamech je v tomto případě dobře vidět, kde jsou a kde nejsou dostupné plné texty. Obr. č. 11: příkladový záznam článku z českého časopisu ve formátu ReDIF (záznam není součástí báze DoIS, jeho identifikátor Handle není reálný) [údaje pocházejí z časopisu Národní knihovna] Obr. č. 12: výstupní metadatový záznam článku z komerčního časopisu JASIS uložený v bázi systému DoIS [převzato 2004-01-15] Druhým způsobem je přímé formulování rešeršních dotazů pomocí WWW formuláře rozhraní DoIS. Dotazy je možné formulovat pomocí klíčových slov, která budou prohledávána v celém záznamu metadat. Systém nabízí i hledání v polích Autor (Author), Název (Title) a Popis (Description). Dotazovací jazyk umožňuje využívání základních booleovských operátorů a rozšíření selekčních údajů pomocí znaku „*“. Specifickou novou službou systému DoIS je signální služba RSS (Rich Site Summary), na základě které jsou uživatelé zpravováni automaticky o obsazích nových čísel volně dostupných elektronických časopisů v momentě, kdy se objeví na WWW. Prozatím jsou nabízeny články ze čtyř známých časopisů z oboru informační vědy: amerického časopisu „D-Lib Magazine“ a tří britských časopisů „Ariadne“, „Information Research“ a „Journal of Digital Information“. Záznamy jsou komunikovány na bázi formátu XML. 5 Závěry Do světa informačních zdrojů v oboru informační vědy vstoupily s intenzivním rozvojem Internetu a informačních technologií dva jejich nové typy: archivy elektronických tisků, které se pokoušejí na jednom místě shromažďovat digitální dokumenty vědeckovýzkumného charakteru, a informační služby hybridního charakteru, jejichž prvořadým úkolem je globální bibliografické mapování oboru informační věda, tedy budování novodobé oborové bibliografie obohacené o odkazy na dostupné úplné texty dokumentů. Oba nové typy silně zasahují a dá se říci i postupně proměňují dosavadní tradiční strukturu informačních zdrojů. Archivy elektronických tisků lze pokládat za novodobé seriály, resp. integrující zdroje, jak jsou dle nejnovější terminologie označovány. V tuto chvíli existují v oboru informační vědy již tři archivy a zatím si lze jenom v obrysech představit, kolik jich může přibýt během dalších let, jak budou konkrétně profilovány, jaká bude jejich celková skladba a jak ovlivní komunikaci v oboru. Analýza čtyř zajímavých systémů ukázala, že v souvislosti s tím, jak se rozvíjely informační technologie, postupně vznikaly jejich jednotlivé typy. Historicky prvním systémem byla služba DoIS, jejíž představitelé se na bázi zcela dobrovolné pokoušejí vytvořit konkurenci tradičním komerčním bibliografickým a jiným službám z oboru infor mační vědy. Hlavním motivem však nebyla ani tak touha konkurovat, jako využít té situace a skutečnosti, že se v prostředí WWW během desetiletí nakupilo již značné množství literatury, jejíž nezanedbatelná část je volně dostupná. Konečně, komerční bibliografické služby již také delší dobu zpracovávají i volně dostupné dokumenty z Internetu, avšak zpřístupňují je za úplatu, což z jistého pohledu vypadá jako paradox. Bylo by nesmírně užitečné, kdyby i v oboru informační vědy vznikla volně dostupná bibliografická služba, která by globálně pokrývala alespoň všechny podstatné volně dostupné i komerční časopisy a periodické sborníky z oboru. Stačilo by k tomu teoreticky málo: opatřit databáze, na základě nichž i komerční vydavatelé zdarma (!) prezentují prostřednictvím záznamů obsahy svých časopisů, nezbytným minimem potřebných technologií a protokolů (OAI-PMH aj.) tak, aby všechny libovolné služby mohly automaticky sklízet metadata a budovat z nich potřebné bibliografické výstupy. Dobrovolníkům ze systému DoIS náleží v tomto prvenství a bylo by velice vhodné tuto službu do budoucna nejen propagovat, ale i napomáhat jejímu zdárnému rozvoji ve prospěch všech uživatelů. Rok 2000 byl přelomovým rokem v rozvoji tzv. archivů elektronických tisků. Dočkal se i obor informační věda, a tak v prostředí k tomu nejvhodnějším, tedy akademicko-univerzitním, vznikla trojice těchto archivů. Značný vliv na jejich rozvoj měl jednak vznik iniciativy OAI a jejího hlavního produktu - protokolu pro automatický sběr metadat OAI-PMH a budování návazných služeb, jednak intenzivní rozvoj návazných technologií a volně dostupných softwarových produktů pro budování těchto archivů (Eprints.org, DSpace aj.). Dispozice programů a technologií je ovšem jenom předpokladem a počátkem budování archivů volně dostupných digitálních dokumentů z výzkumů z oboru informační vědy. Nezbytné je archiv jistým způsobem řídit a dále udržovat. Tři analyzované archivy dokladují, že schopný a erudovaný personál, který by se o archivy staral, existuje (jistá dávka nadšení nikde nechyběla). Dá se říci, že provozy těchto archivů jsou novým prvkem celkové informační činnosti univerzit, které by tudíž měly najít minimální prostředky na jejich provoz. Ukazuje se, že se dobře a úspěšně dají takové archivy budovat i v rámci mezinárodní spolupráce (archiv E-LIS). Ze tří analyzovaných archivů se úspěšně rozvíjejí především evropské projekty. Zajímavý a svébytný francouzský výzkum věd o informacích je pozoruhodně prezentován v archivu @rchiveSIC. Jeho obsah je vysoce kvalitní, bohužel ne všechny příspěvky však bude moci využívat větší počet uživatelů (jazykové bariéry). Nicméně, v archivu se nalézají i dokumenty v anglickém jazyce a podstatné příspěvky francouzských odborníků zaznívají také v angličtině na různých fórech. A tak se pravděpodobně budou dostávat i do druhého evropského archivu E-LIS, který v poslední době značně rozšiřuje objem svého repozitáře i díky iniciativní excerpci příspěvků z řady mezinárodních konferencí konaných na různých místech Evropy i jinde. Pozadu zatím zůstává archiv americký. Pokud se mu však podaří nově koncipovaný záměr roz šíření stávajícího systému DLIST dovést do úspěšného konce, můžeme se dočkat zajímavého digitálního fondu, který bude sloužit v oblasti informační a technologické gramotnosti. Všechny analyzované archivy úspěšně rozvíjejí dílčí metodické otázky, jako jsou metadatové popisy dokumen tů nebo nabízené služby. Daří se rozvíjet další nadstavbové služby, jako je například propojování citovaných a zdrojových dokumentů a budoucí budování citačních rejstříků vystavěných nad archivy. Zajímavým problémem archivů z oboru informační vědy je věcné pořádání informací. Všechny analyzované archivy přistoupily minimálně k jednoduchému schématu předmětových kategorií, ve kterých se promítá základní problematika i koncepce oboru informační věda ve vybraných zemích či regionech. Ukazuje se, že předmětové třídění je v archivech nezbytné jak pro generování předmětového rejstříku, který uživatelé rádi navštěvují, tak například pro realizaci signálních služeb (typu Alert). Na příkladu služby DoIS, která nemá zavedeno podobné třídění, je vidět značné ochuzení uživatelů v procesech vyhledávání informací. Specifickou otázkou, která se debatuje, a to nejen v oblasti archivů elektronických tisků, je otázka autorskoprávního charakteru. Zdá se, že se ji daří překoná vat a že komerční vydavatelsko-distributorská sféra se snaží s novou situací vyrovnat. Hledá nové směry a způsoby své existence. Díky novým technologiím se ale v univerzitním prostředí daří konečně budovat novodobé digitální fondy jejich vlastní produkce, jež jsou celosvětově dostupné všem zájemcům, kteří tak příslušné obory mohou rychleji a efektivněji posunovat dále.
Poznámka: Autorská verze tohoto článku z 26. 1. 2004 byla se souhlasem redakční rady časopisu Národní knihovna před jeho oficiálním publikováním uložena autorkou ve formátu PDF včetně metadat do archivu E-LIS. Text je s identifikačním kódem 745 veřejně dostupný na URL: http://eprints.rclis.org/archive/00000745/. Použité informační zdroje:
|