File Format Recognition of Data Harvested by Web Archiving Project of National Library of the Czech Republic

Vol.5,No.2(2013)
Autumn issue 2013

Abstract

National Library of the Czech Republic just begun to ingest harvested data from web archiving project into Long-term Preservation System. This article is output of Institutional Science and Research project aiming to implement retrospective file format recognition framework for harvested data and map tools related to file format recognition. Precise knowledge of archived data is cornerstone for building Long-term Preservation Strategy. Such analysis may also improve conditions of end-user access.

 

Jaroslav Kvasnica, Rudolf Kreibich

Národní knihovna České republiky


Keywords:
file formats; web archive; long term preservation; Heritrix; archiving; National digital library; ARC; WARC
References

  • ARC_IA: Internet Archive ARC file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2008-02-14, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml
  • BLEKINGE, Asger Askov. Identification tools, an evaluation: The Scape Characterisation Tool Testing Suite. OPEN PLANETS FOUNDATION. Open Planets Foundation: A community hub for digital preservation[online]. 23 February 2012 [cit. 2013-06-25]. Dostupné z: http://www.openplanetsfoundation.org/blogs/2012-02-23-identification-too...
  • Co je WebArchiv?. WebArchiv: archiv českého webu [online]. [cit. 2013-06-21]. Dostupné z: http://www.webarchiv.cz/
  • CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. 1. vyd. Praha: Národní knihovna České republiky, 2010, 154 s. ISBN 978-80-7050-588-5.
  • DAY, Michal. The Long-Term Preservation of Web Content. MASANÈS, Julien. Web archiving. Online-Ausg. New York: Springer, c2006, s. 177-199. ISBN 3540233385-.
  • HAAS, Juergen. Linux / Unix Command: file. About.com: Linux [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://linux.about.com/library/cmd/blcmdl1_file.htm
  • HUTAŘ, Jan, Marek MELICHAR a Bohdana STOKLASOVÁ. Národní digitální knihovna. Knihovna. 2009, roč. 20, č. 1, s. 6-21.
  • HUTAŘ, Jan. Podrobnější popis projektu NDK a jeho kontext. NÁRODNÍ KNIHOVNA ČR. Národní digitální knihovna [online]. 13. 12. 2011. Praha [cit. 2013-06-21]. Dostupné z: http://ndk.cz/narodni-dk/podrobnejsi-popis-projektu
  • ROSENTHAL, Colin, Asger BLEKINGE-RASMUSSEN a Jan HUTAŘ. Průvodce plánem důvěryhodného digitálního repozitáře (PLATTER). 1. vyd. Praha: Národní knihovna České republiky, 2009, 51 s. ISBN 978-807-0505-694.
  • The technical registry Pronom: about. THE NATIONAL ARCHIVES. The National Archives [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://www.nationalarchives.gov.uk/aboutapps/PRONOM/default.htm
  • WARC: Web ARChive file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2009-08-31, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml
  • ZBIEJCZUK, Adam. Long Tail (dlouhý chvost). WEB 2.0: charakteristiky a služby [online]. červen 2007 [cit. 2013-06-25]. Dostupné z: http://zbiejczuk.com/web20/03-5-long-tail-dlouhy-chvost.html

Metrics

104

Views

17

PDF (Czech) views