Интернет съдържанието изчезва. Може ли някой да направи дигитален архив?
Живеем във времената на потенциално изтриващата се информация. Това се дължи на липсата на всякакви усилия от страна на институциите да се архивира събраното в интернет. С тази задача обаче са се заели група частни организации
Благодарение на оцелелите през вековете мозайки, папируси и други останки днес имаме горе-долу точна представа какво са закусвали жителите на Помпей преди 2000 години. Ако знаете достатъчно средновековен латински, бихте могли да научите колко и какъв добитък е бил отглеждан във фермите в Англия през XI век. Викторианската епоха е описана в романи и писма от онова време. За живота във Византийската империя разчитаме на тогавашните хронисти. А за историята на Египет знаем много от пирамидите и другите артефакти.
Всичко това е нормално, защото всяка епоха и цивилизация са имали своя начин да записват историята си, макар и много често той да е бил примитивен. Колкото и странно да звучи, ако историците след няколко столетия се опитат да научат подробности за хората от XXI век, може и да не успеят. Но как е възможно това? Та нали живеем в епохата на информацията?
Всъщност живеем във времената на потенциално изтриващата се информация. И това се дължи на отношението към дигиталните данни и по-точно – липсата на всякакви усилия от страна на институциите да се архивира събраното в интернет.
С тази задача обаче са се заели група частни организации, пише BBC.
Някои от тях имат минимална подкрепа от официалните власти, но въпреки това работата, която имат да свършат, изглежа непосилна.
Една от най-известните неправителствени организации в тази дейност е базираната в Сан Франциско Internet Archive. Oснована е през 1996 г. по идея на интернет предприемача, компютърен инженер и „дигитален архивар“ Брустър Кал. Екипът му се занимава с може би най-мащабния проект, събрал в себе си досега 866 млрд. уеб страници, 44 млн. книги, 10.6 млн. клипове, телевизионни програми, филми и др. Това огромно количество данни се съхранява в центрове по целия свят. Internet Archive и още няколко подобни организации са единствените, които засега спират цифровата забрава.
„Рисковете са много. Не само че има опасност технологията да се провали, а е сигурно, че това се случва. Но по-важното е, че институциите се провалят, а фирмите фалират. Една новинарска организация поглъща друга, а често пъти и спират да работят“, казва Марк Греъм, директор на Wayback Machine - инструмент на Internet Archive, чрез който се пазят снимки на уебсайтове от определени периоди на съществуването им.
Има много причини да се прави съдържание онлайн, допълва Греъм. Но твърде малко то да се поддържа в дългосрочен план.
И въпреки че досега са постигнали немалко, организации като Internet Archive са изправени пред сериозни предизвикателства. На първо място е липсата на пари, но не е само това. Техническите проблеми, кибератаките, както и юридически битки с притежателите на авторски права върху съхраняваните продукти, са не по-малко опасни. След като губят няколко дела в съда, от екипа осъзнават, че онлайн архивът им може да се окаже точно толкова мимолетен, колкото и изчезващото интернет съдържание.
„Все повече от нашите забавления, новини, разговори, от произвежданото интелектуално съдържание са онлайн и съществуват само там. А тази среда по своята същност е крехка“, казва Греъм.
Според скорошно проучване на организацията Pew Research Center ¼ от интернет сайтовете, съществували в периода 2013-2023 г., са изчезнали. Авторите на изследването стигат до извода, че колкото по-стара е една уеб страница, толкова по-голяма е вероятността да бъде изтрита. 38% от сайтовете от 2013 г., до които са се опитали да стигнат, вече ги няма. Проблемът е по-слабо изразен за страници от 2023 г. (8%), но все пак го има.
И това не е драма само за феновете на историята и интернет.
Изследователите посочват, че един от всеки пет правителствени уеб сайта в САЩ съдържа връзка, която е повредена, т.е. води към несъществуващо вече съдържание. Същото се отнася и за съдържанието в Wikipedia, където половината статии имат неработещи препратки. Иначе казано – доказателствата в подкрепа на данните от онлайн енциклопедията вече ги няма.
Благодарение на Internet Archive някои от тези връзки са достъпни. От години организацията използва технология, чрез която „пълзи“ из интернет лабиринтите. Тя прави копия на уебсайтове, често няколко пъти в един ден и ги запазва като достъпът до тях е безплатен.
„2/3 от URL адресите в Wayback Machine са налични. И в този смисъл ние изпълняваме целта, която сме си поставили“, посочва Греъм.
Неговата организация не е единствената, която полага усилия в тази насока. Бибилиотеката на Конгреса на САЩ например съхранява копия на правителствени и на някои новинарски сайтове. До 2017 г. там се правят и копия от всеки един туит. След това този проект е закрит. Във Великобритания също има уеб архив, който веднъж годишно запазва част от сайтовете, завършващи с .uk. През 2022 г., в условията на война и руски кибератаки, подобна инциатива започна в Украйна.
Но всяка от тези организации има ограничено действие, докато Internet Archive прилага цялостен подход. И въпреки това да се събере на едно място целият интернет е невъзможно, поне не и с ресурсите, с които разполагат.
Но макар успехите да са частични, те вече са известни. Стандартна практика е в Wikipedia например да се посочват като източници препратки към Wayback Machine. Освен това обаче ахривът се превръща и в нещо като стрийминг платформа, макар идеята му да е съвсем различна. Но това е единственото място, на което онлайн се пазят стари сериали. Освен това се съхраняват книги, недостъпни на физически носител. Има и опция всеки да качи видео, за да бъде то запазено.
В Wayback Machine са запазени и уебсайтове, изградени с услугата GeoCities. Тя е един от пионерите в областта на „Направи си сам“ страница. Използвана в периода 1994-1999 г., тя е смятана за една от най-важните в ранните периоди на интернет развитие и ако информацията за нея изчезне, означава, че ще бъде загубена цяла една епоха. А както историята е показала, такива услуги рядко живеят дълго.
„На всеки 5-6 години се появява нова платформа. А след това икономическите ѝ сили внезапно се сриват“, казва Андрю Джаксън, технически архитект в Digital Preservation Coalition, организация от Великобритания, която също работи за съхраняване на дигитална информация.
Сривовете в обещаващи платформи не са изключение, но понякога на тях се реагира учудващо силно. Такъв бе случаят със сайта за техновини CNET след като през миналата година се разбра, че са изтрили десетки хиляди статии, които на практика проследяват голяма част от технологичното развитие на света през последните десетилетия. От там отговориха, че всичко е запазено в Wayback Machine, само за да бъдат разкритикувани, че приемат безплатния интернет архив като даденост и са безотговорни към собственото си съдържание.
„Въпреки че и Google, и други търсачки активно препоръчват да се поддържат стабилни URL адреси, това е доста трудно. При всяко обновяване на сайт, собственикът му трябва да реши колко от новите URL ще бъдат поддържани в бъдеще“, казва Джаксън.
Алтернативата е Internet Archive, но не бива да се забравя, че тази организация се финансира в дарения, а в същото време има непрекъснато нарастващи разходи и все повече работа. Те вече са се превърнали в „библиотека“ на дигиталния живот, но колкото повече хората стават зависими от онлайн съдържанието, толкова по-трудна става задачата на архиварите.
Наскоро от Internet Archive обявиха, че са подписали договор с Google, която вече ще включва в резултатите от търсенията връзки към тяхната платформа. Но това все още не означава безоблачно бъдеще по линия на финансите. Наскоро едно съдебно дело в САЩ показа, че архивът е крехка структура. То бе заведено от четирима издатели с твърдението, че практиката да се сканират книги, до които след това има свободен достъп, нарушава авторските им права. Internet Archive изгубиха това дело и се съгласиха да платят обезщетение без точната сума да бъде съобщена. Организацията се съди и с музикални компании, които претендират за 400 млн. долара. Тази сума вероятно би застрашила съществуването на архива.
Освен делата такава организация може да се сблъска и с други проблеми. Уеб архивът на Великобритания например бе ударен от хакерска атака през миналия октомври. Още не са успели да ликвидират щетите. Преди няколко седмици и Internet Archive съобщиха за атака срещу системите им.
Какво ще се случи в бъдеще с такива организации не се знае. Ясно е, че те ще продължат да работят поне още известно време, но освен, че ще им бъде трудно, усилията няма да са концентрирани, т.е. всеки е за себе си.
Последното може и да не е толкова лошо, обяснява Мар Хикс, експерт по история на технологиите в Университета във Вирджиния. Има смисъл един архив да се прави и съхранява децентрализирано, защото така шансовете за запазване са по-големи. Но може да означава и съвсем различно съдържание, защото всеки сам решава кое е важното. Т.е. опасността е архивите да са много, но все непълни.
Хикс посочва и още един важен детайл – информацията всъщност е прекалено много. В YouTube например ежеминутно се качва видеосъдържание с продължителност над 500 часа.
„От гледна точка на ресурсите няма смисъл да се опитваме да запазим всичко“, твърди той.
Затова според Хикс трябва да се определи приоритетно съдържание, за да е ясно „какво от цифровия отпечатък на нашето поколение се запазва“. Той е категоричен по въпроса кой трябва да плати за това – всички заедно. Защото ако няма сигурност, че архивите ще продължат да същестуват, няма и смисъл да бъдат създавани.