MY.UAСтатьи
Что такое веб архивы в интернете и как они помогают восстанавливать сайты
Что такое веб архивы в интернете и как они помогают восстанавливать сайты

Что такое веб архивы в интернете и как они помогают восстанавливать сайты

Открыли нужную страницу, но видите сообщение, что ее больше нет? Спокойно, без паники, пропавший контент всё еще можно восстановить. Для этого нужно немного: вернуться в прошлое. А сделать это нам помогают веб-архивы.

Помогаем
Собираем на дрон для штурмовиков Николаевской области. Он поможет найти и уничтожить врага

Редакция MC.today разобралась, что такое веб-архивы, какие актуальные ресурсы есть в интернете и для чего их используют.

Содержание

  • Что такое веб-архивы?
  • История появления
  • Назначение веб-архивов
  • Веб-архивы против «вымирания» ссылок
  • Действующие веб-архивы
  • web.archive.org
  • archive.today
  • Что делать, если страницу удалили и ее нет ни в одном из архивов?
  • Как скачать сайт из веб-архива?
  • Как узнать все страницы сайта в веб-архиве?
  • Как запретить добавление сайта в веб-архив

Что такое веб-архивы?

Веб-архив – это сервис, который собирает и сберегает копии сайтов. При этом для каждого сайта сохраняется не одна, а множество, иногда тысячи, версий за разные даты. 

Что такое веб-архив

Благодаря этому можно проследить историю изменения сайта с момента возникновения, найти информацию, которую удалили, и даже восстановить свой сайт, когда нет резервной копии. 

История появления

С древнейших времен люди пытались сохранить и передать потомкам накопленные знания. В III веке до нашей эры крупнейшим в мире собранием научных трудов стала Александрийская библиотека в Египте. А в 1996 году американский инженер Брюстер Кейл назвал в честь нее свою коммерческую систему веб-архивирования Alexa Internet

Курс
Full Stack розробка
Навчайтесь за вільним графіком, щоб стати універсальним фахівцем зі знанням Back-end та Front-end. Заробляйте $1300 на місяць
РЕЄСТРУЙТЕСЯ!

Подобно Александрийской библиотеке, Alexa собирала и информацию, но уже в сети Интернет. С помощью фирменной панели инструментов пользователь мог получить данные о каждом посещенном сайте: имена владельцев, количество страниц, как часто сайт обновляется и много ли на него ссылок в других ресурсах.

Wayback Machine

Позже помимо сканирования, специальные поисковые роботы компании стали архивировать веб-страницы. Эту информацию нужно было как-то систематизировать. Так в 2001 году появился Wayback Machine, или цифровой архив Всемирной паутины, в котором сегодня насчитывают более 740 млрд веб-страниц.

Назначение веб-архивов

Изначальной целью проекта, по словам его создателей, был «универсальный доступ ко всем знаниям» путем сохранения архивных копий страниц. Но, как и всякое дальновидное начинание, веб-архив показал, что его предназначение не ограничивается только этим. Вот что сегодня можно сделать с его помощью.

  • Ввести в строку поиска название любимого сайта, чтобы просмотреть, как он выглядел 5, 10 или даже 20 лет назад. Узнать о чём тогда писали газеты, что обещали политики и какой, например, процессор знатоки советовали ставить в «ПК месяца» за 2001 год.

    Рубрика «ПК месяца» на сайте itc.ua за 2001 год

  • Восстановить резервную копию своего сайта. Правда сделать это вручную будет довольно сложно, так как ссылок могут быть тысячи. Поэтому лучше использовать парсер – специальный сервис, который автоматизирует процесс сбора информации в архиве.
  • Маркетологи и специалисты по СЕО могут проанализировать изменение интересных им сайтов за определенный период.
  • Журналисты и все любопытные граждане могут найти уникальную информацию, которую удалили, например, в результате цензуры.
  • Покупатели доменов могут проверить перед покупкой их историю, чтобы убедиться, что прежние владельцы не публиковали сомнительный контент.

Веб-архивы против «вымирания» ссылок

На фоне борьбы с дезинформацией в интернете стала актуальной проблема «вымирания» ссылок. И, как оказалось, без веб-архива тут тоже никак. Дело в том, что жизнь многих веб-страниц длится недолго. Причины этому могут быть самыми разными. Иногда владельцы сайтов забывают продлить хостинг, просто не заинтересованы в дальнейшей поддержке своих проектов или удаляют статьи, чтобы заменить их новыми. Бывает, что битые ссылки появляются в результате технических неполадок или изменения файловой структуры.

Согласно исследованию The New York Times, более четверти всех ссылок, когда-либо появлявшихся на страницах онлайн-версии издания, сегодня неактивны. А для публикаций за 1998 год эта цифра и вовсе составляет колоссальные 72%.

Вы скажете: «Подумаешь, одни ссылки пропали, другие появились, а в целом ничего не изменилось». Но ситуация хуже, чем может показаться на первый взгляд, и касается всех нас. Судите сами: с помощью этих ссылок сайты могут нести ценную научную информацию или доказывать какие-то спорные утверждения. А потом всё исчезает в одну ночь.  

В лучшем случае ссылка становится недоступной. В худшем – такие мертвые ссылки находят злоумышленники, выкупают домен для себя и подменяют первоначальный вариант статьи выгодной им дезинформацией. Поэтому, например, Википедия убедительно просит своих авторов подкреплять цитаты ссылкой на страницы из архива Wayback Machine, где их никто не сможет изменить.

Действующие веб-архивы

На сегодня веб-архив, который основал Брюстер Кейл, остается старейшим и самым полным собранием архивных копий сайтов. Но кроме него есть и другие, которые отличаются перечнем доступных ресурсов, дополнительными функциями, но призваны решать ту же задачу.

  • Web.archive.org – самый старый и самый полный из всех архивов. Копии страниц с 1998 по 2012 год можно найти только тут.
  • Archive.today – начал работу в 2012 году. В отличие от Wayback Machine не использует поисковых роботов и архивирует страницы только по запросу пользователей. Имеет несколько зеркал: archive.is, archive.li, archive.ph,  archive.fo и другие.
  • Perma.cc – некоммерческий сервис по архивированию интернет-источников, цитируемых в научных работах. 
  • Webcite – открылся в 2003 году и обрабатывал запросы только на сохранение отдельных страниц. В данный момент сервис свернул работу и не принимает новых заявок, но всё еще продолжает обслуживать созданные архивы.
  • Web-arhive.ru – образец того, так хорошая идея может порой трансформироваться до неузнаваемости. Основное направление сервиса – создание заверенных копий сайтов, социальных сетей и переписки для использования в суде.

web.archive.org

Рассмотрим возможности сервиса подробнее. На главной странице мы видим форму для поиска. В нее можно вставить адрес любого интересного вам сайта и нажать «Ввод». После это этого архив сформирует календарь, в котором представлены все сохраненные копии ресурса от самой старой до наиболее актуальной.

Архивные копии сайта MC.today за 2022 год

Как видим, в 2022 году копии сайта MC.today сохраняются каждый день. Но если вернуться в 2018 год, то их уже намного меньше. Цвет и размер точек, которыми обозначены сохранения, имеет значение. Чем больше диаметр точки, тем больше копий сайта было сделано в этот день. Голубой и зеленый цвета говорят, что архивация прошла успешно. Оранжевый указывает на допущенные при архивации ошибки. Красный означает, что ошибки были критическими. 

Копия главной страницы сайта MC.today за 19 марта 2021 года

Отсюда ясно, что для просмотра лучше всего выбирать голубые точки. Выберем для нашего сайта одну из них, например, за 19 марта 2021 года. При клике по выбранной ссылке откроется страница сайта, какой она была в то время. При этом все ссылки будут активными. По ним можно перейти к одной из статей или выбрать другую дату, чтобы продолжить просмотр.

инструмент Changes

Посмотреть изменения в содержимом заархивированных страниц позволяет инструмент Changes. Выберите две даты для сравнения и нажмите кнопку Compare. Сервис отобразит на экране оба варианта страницы и выделит желтым цветом удаленный, а голубым – добавленный контент.

Вкладка Save Page Now

Чтобы сохранить текущую версию сайта в веб-архиве, найдите на его главной странице вкладку Save Page Now. Затем введите ссылку и нажмите «Сохранить страницу». Подобную процедуру советуют выполнять перед всеми серьезными изменениями сайта. Тогда даже в случае утраты резервной копии восстановить сайт можно будет из веб-архива.

Если место адреса страницы ввести поисковый запрос, то сервис выдаст всё, что по этой теме есть в сохраненных сайтах. Есть также возможность посмотреть архивную копию страницы за определенную дату. Для этого введите в адресную строку конструкцию типа http://web.archive.org/web/20220224/https://mc.today/, где 20220224 – год, месяц и день, а mc.today можно заменить на адрес нужного вам сайта.

archive.today

На главной странице выделяются две ярких формы. Верхняя красная позволяет архивировать страницу. Нижняя серая помогает найти сайт среди уже сохраненных. Например, для сайта pravda.com.ua сервис нашел более 157 сохранений с 2017 до 2022 года и около 50 более старых, начиная с 2012 года.

Пример работы сервиса archive.ph

Интересно, что archive.ph игнорирует стандартный запрет доступа для поисковых роботов с помощью файла robots.txt. За счет этого в его поиске можно обнаружить и те сайты, владельцы которых запретили архивацию.

Что делать, если страницу удалили и ее нет ни в одном из архивов?

Возможно страницу удалили раньше, чем она смогла попасть в веб-архив. Но вариантны всё равно есть. Во-первых, нужно поискать в кэше Google. Для этого нужно ввести в адресную строку ссылку типа cache:URL, где URL – адрес страницы, которая вам нужна. Например, cache:https://mc.today/uk/.

Поиск в кэше Google

В моем случае над копией страницы появилась надпись: «Это версия страницы https://mc.today/ из кеша Google. Она представляет собой снимок страницы по состоянию на 7 окт. 2022 09:42:55 GMT». Ссылки на сохраненные страницы можно найти и в простой поисковой выдаче. Для этого нужно нажать на треугольник рядом с адресом страницы и выбрать пункт «Кэш».

Как выбрать пункт «Кэш» в результатах поиска

Однако следует понимать, что в кэше хранится только самая актуальная копия каждой страницы. При каждом обходе поискового робота он перезаписывает ее на новую, а старые версии удаляет. Определить частоту обновления кэша в Google довольно сложно. Она может варьироваться от 1 до 15 дней. Но известно, что Яндекс и китайский поисковик Baidu обновляют кэш 1–2 раза в неделю. Значит, если страницу удалили пару дней назад, то шансы найти ее в кэше одной из поисковых систем всё еще велики.

Главная страница сайта CachedView.com

Чтобы не перебирать все их по очереди, пользуйтесь специализированным сервисом CachedView.com. Он позволяет одновременный поиск по кэшу Google и Archive.org, а также системе распространения контента Coral Cache. Аналогичный функционал имеет поисковик http://www.cachedpages.com/.

Как скачать сайт из веб-архива?

Мы уже разобрались, как найти архив сайта при помощи Wayback Machine. Но страниц на сайте, как правило, слишком много, чтобы скачать все их вручную. К тому же набор разрозненных файлов не поместишь на сервер. Для начала нужно восстановить структуру папок и ссылок исходного сайта. Всё это без труда сделает программа Wayback Machine Downloader.

Итогом ее работы будет папка вида /websites/example.com с последними сохраненными версиями каждого файла и страницей index.html. Затем ее можно поместить на сервер, чтобы запустить копию сайта. Иногда требуется скачать не весь сайт, а только какую-то его часть с изменениями за всё время. С этим поможет инструмент Waybackpack. 

Как узнать все страницы сайта в веб-архиве?

Список всех заархивированных страниц сайта

Wayback Machine позволяет получить список всех заархивированных страниц сайта. Для этого нужно ввести в адресной строке https://web.archive.org/web/*/[URL]/*. На примере нашего сайта видно, что архив выдал больше десяти тысяч ссылок, которые можно дополнительно отфильтровать по ключевым словам и типу. 

Как запретить добавление сайта в веб-архив

Не все владельцы сайтов хотят, чтобы их проекты сохранялись в Wayback Machine. Одни опасаются за свой уникальный контент и не хотят, чтобы кто-то его использовал в случае удаления сайта. И эти опасения действительно имеют под собой почву. Ведь в Сети полно инструкций, как без особых затрат пополнить содержание своего сайта полезным контентом с закрытых ресурсов. 

Другие собираются продавать домен и не заинтересованы, чтобы его содержание связывали с новыми владельцами, или хотят таким образом защитить личную информацию. В любом случае добавление сайта в архив можно запретить. 

Проще всего это сделать через изменение настроек файла robots.txt, который блокирует доступ для поисковых роботов. В результате запрета роботы перестанут сканировать сайт, и новые страницы с него архивироваться не будут. Но собранная ранее информация всё еще останется доступной.

Чтобы ее удалить, достаточно отправить запрос с указанием доменного имени на почту [email protected]. Важно также, чтобы письмо было отправлено с почты в домене вашего сайта. Обычно вопрос решается в течение трех дней и сайт полностью исчезает из архива. Аналогичным образом ресурс можно восстановить в Wayback Machine.

Итак, веб-архив – это бесплатный проект, цель которого собрать и сохранить весь доступный в интернете контент. С помощью инструмента Wayback Machine в архиве интернета легко найти копии интересного вам сайта за выбранную дату, что может пригодиться в самых разных ситуациях. Например, позволит восстановить страницы после хакерской атаки, проанализировать изменения проекта или просто узнать о чём любимый сайт писал 20 лет назад.

Поделиться
Поделиться сюжетом
Источник материала
Андрій Миколайчук – “підпільник Кіндрат” української естради
Photo Lviv
2025-02-12T06:12:35Z
Вступ до ТрО "заочно", легальні виїзди та "цікава" російськомовна аудиторія: Потап дав інтерв'ю Дудю
Ukraine Art News
2025-02-10T13:42:51Z
Адвокатка акторів Молодого театру подала до суду, оскільки поліція не реєструє заяви постраждалих від Білоуса
Ukraine Art News
2025-02-10T12:00:46Z
Скрипку Страдіварі 1714 року продали на аукціоні Sotheby's за $11,3 млн
Ukraine Art News
2025-02-08T17:00:52Z
"Я - нацист": репер Каньє Вест попросив називати його Єдольфом Їтлером
Ukraine Art News
2025-02-07T18:15:57Z
Блискучі корсети, пісні про бойфрендів та тріумф на «Ґреммі»: що варто знати про Сабріну Карпентер
Elle
2025-02-07T07:15:51Z
Справу проти Таїсії Повалій про колабораціонізм і підтримку агресії РФ передали до суду
Ukraine Art News
2025-02-07T03:45:44Z
У Театрі драматургів поставлять виставу за пʼєсою актора і військового Макса Девізорова
Ukraine Art News
2025-02-06T10:45:52Z
Театр Драматургів готує прем’єру за п'єсою актора і військовослужбовця Макса Девізорова
Ukraine Art News
2025-02-05T19:57:43Z
Куди піти у Львові цього тижня: Carmina Burana, KLAVDIA PETRIVNA, «Waterland» та інші заходи
Photo Lviv
2025-02-12T06:06:36Z
У Львові презентували обертанку Ніни Бічуї та Романа Гериновича
Photo Lviv
2025-02-12T06:03:33Z
У Сумах відкрили виставку фронтової графіки Олега Зими "Зимові молитви"
Ukraine Art News
2025-02-11T20:33:44Z
У Львові помер письменник і громадський діяч Богдан Чепурко
Ukraine Art News
2025-02-11T14:24:48Z
Легендарну косметику Pat McGrath тепер можна купити в Україні
Elle
2025-02-11T13:42:40Z
Держмистецтв оголосило список номінантів на здобуття Премії імені Лисенка
Ukraine Art News
2025-02-11T12:15:49Z
«Їх убила Росія»: в Україні створили проєкт пам’яті загиблих діячів та діячок культури
Ukraine Art News
2025-02-11T11:52:01Z
Гід головними модними трендами сезону весна-літо — 2025
Elle
2025-02-11T10:48:44Z
В Україні зʼявилось видавництво "Адаптації", яке випускатиме книжки про війну
Ukraine Art News
2025-02-11T08:39:46Z
"Канадець" - новий фільм з Річардом Гіром та Умою Турман
Ukraine Art News
2025-02-11T21:45:45Z
Кращі фільми та серіали про поліціянтів. ТОП-5
Ukraine Art News
2025-02-11T20:57:50Z
"День, коли ми обʼєднались": у Києві презентували документальну стрічку про перший день повномасштабного вторгнення РФ
Ukraine Art News
2025-02-11T20:57:47Z
Топ-5 сучасних романтичних фільмів, які варто подивитись з коханою людиною
Ukraine Art News
2025-02-11T19:30:44Z
Рецензія на фільм «Субстанція»
KinoFilms
2025-02-11T18:39:33Z
Найочікуваніші серіали лютого 2025
Ukraine Art News
2025-02-11T18:00:50Z
"Редакція", "Фрагменти льоду" й "Самотній Захід": у Києві оголосили лауреатів Кіно-театральної премії "Чорний лотос"
Ukraine Art News
2025-02-11T14:15:47Z
Ганна Ваддінгем зіграє у фільмах «Ліло і Стіч» та «Смурфи»
KinoFilms
2025-02-11T14:06:42Z
Перший погляд на Зендею в третьому сезоні драми «Ейфорія»
Elle
2025-02-11T12:57:47Z
Про "Західну Україну" і чому мене ця фраза забембала
Ukraine Art News
2025-02-11T20:03:48Z
Трахтемирів: Залишки давніх храмів і артефакти часів Козацької держави
Ukraine Art News
2025-02-11T09:01:02Z
Майже невідомі фотографії Стрия часів Першої світової війни з Австрійського архіву
Photo Lviv
2025-02-10T06:33:30Z
Брассері нового покоління: Le Tout-Paris в самому серці Парижа
Elle
2025-02-07T17:30:50Z
Європейці запустили нічний потяг Брюссель–Венеція, який не їде до Венеції
Хмарочос
2025-02-06T11:25:03Z
Євреї, караїми, сарацини і татари
Photo Lviv
2025-02-06T06:12:36Z
У Чехії бобри звели греблі, зекономивши владі мільйони крон
Хмарочос
2025-02-05T16:18:57Z
На Яблуницькому перевалі побудують SPA-курорт в «японсько-скандинавсьому стилі»
Хмарочос
2025-02-05T11:43:03Z
На площі Каталонії в Парижі висадили ліс: фото до і після
Хмарочос
2025-02-05T07:31:07Z
Як носити найтрендовіший принт цієї весни — показують streetstyle-модниці
Elle
2025-02-12T06:24:52Z
Історик Радомир Мокрик пояснив, як "хороші русскі" ускладнюють можливість українцям донести своє бачення про війну світу
Ukraine Art News
2025-02-11T19:42:44Z
День Святого Валентина У 365 STUDIO: ідеальні процедури та подарунки
Elle
2025-02-11T19:09:47Z
РФ поступово переконала Захід у тому, що вона з Кримом і Донбасом "один народ", – історик Радомир Мокрик
Ukraine Art News
2025-02-11T18:15:53Z
Звинувачення викладачів творчих вишів у харасменті: юристки пояснили, яка відповідальність передбачена за сексуальні домагання
Ukraine Art News
2025-02-11T18:15:50Z
Україна залишається в оптиці російських політичних еліт чимось на кшталт колонії, - історик Мокрик про боротьбу з культурною колонізацією
Ukraine Art News
2025-02-11T17:30:59Z
У РФ заявили, що Девід Бекхем зареєстрував у Росії свій бренд
Ukraine Art News
2025-02-11T17:03:49Z
У США розбився літак фронтмена Mötley Crüe Вінса Ніла. Музиканта на борту не було
Ukraine Art News
2025-02-11T16:09:45Z
Під час Нацвідбору на Євробачення-2025 українці задонатили понад 3 млн грн на гуманітарне розмінування
Ukraine Art News
2025-02-11T15:15:44Z
Кого ще хоче купити «Київстар» перед виходом на біржу Nasdaq? Наприклад, Tabletki.ua
Хмарочос
2025-02-10T10:09:55Z
У Росії випустили настільну гру за мотивами захоплення територій України
Gloss
2025-02-06T15:51:52Z
Штучному інтелекту в Дії можна буде поскаржитися на держслужбовців
Хмарочос
2025-02-06T10:46:03Z
Передові функції та стильний дизайн: 5 ключових переваг iPhone 16 Pro Max
Хмарочос
2025-02-03T08:12:59Z
Рецепт ідеального узвару: корисний для імунітету напій, без якого неможливо уявити різдвяну вечерю
Elle
2024-12-24T10:45:44Z
Різдвяне меню: штолен, який виходить у всіх
Elle
2024-12-20T20:24:35Z
Королівський пляцок-пиріг: смачно через віки
Ukraine Art News
2024-11-15T09:30:48Z
Секрети приготування смачного бургера в домашніх умовах
Photo Lviv
2024-10-24T04:57:29Z
Дуже смачна лазанья з козячим сиром
Elle
2024-09-23T13:39:47Z
Сезонний десерт: хрустка та ароматна сливова галета
Elle
2024-09-19T07:32:19Z
Ідеальний соус до будь-яких страв: чатні з помідорів
Elle
2024-09-17T16:04:06Z
Від Бенедикта до шакшуки: 7 смачних способів приготування яєць
Elle
2024-09-13T11:13:30Z
Фетучіні зі шпинатом і сиром горгондзола
Elle
2024-08-30T13:09:44Z