
Предназначена е общо ползване от хора, които не са специалисти в създаване на дигитални архиви или информатика.
Дигитален архив е съвкупност от електронни документи, оригинални или създадени чрез конвертиране на документи от хартиен или друг вид носител. С други думи – хартиините документи не изчезват. Те просто стават цифрови и преминават от едно място на друго по части, или „бит по бит“, според протокола на мрежата.
Дигиталният архив е абстрактно понятие. То включва електронни документи и връзки между тях, както и специфична информация, която характеризира всеки от тези документи. За всяка организация се създава индивидуално решение, съобразено с конкретните нужди и изисквания. Индивидуалността се състои най-вече в настройките и правата за достъп, и в обхвата на информацията, която подлежи на архивиране.
В най-общ вид, етапите на създаване на дигитален архив на една организация са:
-
Предварително задание
- Определяне на обхвата на архива - информационен и типове документи
- Създаване на класификатор или характеристики за класифициране
- Определяне на основни характеристики за описване на всеки документ
- Определяне на правата на достъп до всеки документ
- Определяне на периода на секретност, там където е приложимо.
- Предпроект
- Консултации и координиране, анкети
- Окончателно задание
- Създаване на приложението или настройка на съответното
- Въвеждане на информацията.
Необходимостта от създаване на (дигитален) архив възниква поради необходимостта от запазване на информацията – в името на историята и в името на нормативните изисквания.
Документите, които се използват често са част от т.нар. оперативен архив. Те трябва да са класифицирани така, че да се откриват бързо и лесно.
Логовете за достъп и промени са изключително важни.
Един доста остарял вариант е „предварителното създаване на индекси“ с ключови думи, описващи конкретния обект в архива. Все по-голяма популярност приема тъй нареченото пълнотекстово индексиране.
При сканиране на документи на хартиен носител, ако е приложимо се прилагат OCR програми за разпознаване на текст. При класически документи от стандартни текстообработващи системи се използва документирания стандарт. При нестандартни – каквото сабя покаже. Разбира се, към всеки документ могат да се добавят няколко класически ключове фрази.
Още едно преимущество на пълнотекстовото индексиране е това, че в следващите месеци звуковото търсене – чрез изговаряне, е сред топ приоритетите на гиганти както Гугъл. В разработката дотук, а и по-нататък следваме именно този модел. Пълнотекстовото извличане на информацията от документите и индексирането им може да се реализира с уеб базиран софтуер.
„Документ“ наричаме всеки обект, без значение от типа му, който представлява интерес и трябва да попадне в архива.
Важно е всеки „физически“ документ да има уникален начин на идентифициране, с цел да се избегне дублиране на информацията. Истината е, че в случая на архив, дублирането на информация е по-добрият вариант от липсата на такава. За имената на файловете трябва да се създадат специални правила, които да се разкодират бързо със стандартен алгоритъм.
Изключително важно е да се фиксира дата на старт на архивирането като реално действие. Пример: 01.юли.2020 година. Необходимо е да се прецизират 2 процедури - алгоритми за събиране на документи с информация. Първата е тази, която определя правилата, по която документи, създадени преди тази дата, попадат (се въвеждат) в архива. Втората процедура указва по какъв начин нови документи попадат в архива.
Всяка процедура е с множество подварианти, според източниците и вида на информацията в документите. Втората процедура е необходимо да се спазва стриктно на всички нива. В противен случай документи "след" изпадат в състояние "преди", и става тегаво. Първата е също изключително важна с оглед пълнота на архива.
При предварителното задание е необходимо да се определи
- Времеви обхват: началната, и евентуално крайна дата.
- Информационен обхват: каква информация се събира.
- Звена, които генерират информация.
- Източници, от които да се извлича информация за минали събития.
- Права на достъп до информацията.
- Видове данни – текст, видео, аудио, изображения, друго.
- Допустим формат на файлове (по всяка вероятност ще се налага с развитие на технологиите да се променя и дано не се налага преобрауване)
- Характеристики на описване на документите. Мета данни.
- Възможно е, освен документи, които касаят дейността като норматив и оперативни данни, архивът да се допълни с база данни с контрагенти, стоки, марки, служители, членска маса и друга информация.
Описването на конкретни характеристики са елемент на друг етап от създаване на задание за архива. Успоредно с пълнотекстово търсене те са важни като конкретни филтри за търсене.