MY.UAСтатьи
Что такое веб архивы в интернете и как они помогают восстанавливать сайты
Что такое веб архивы в интернете и как они помогают восстанавливать сайты

Что такое веб архивы в интернете и как они помогают восстанавливать сайты

Открыли нужную страницу, но видите сообщение, что ее больше нет? Спокойно, без паники, пропавший контент всё еще можно восстановить. Для этого нужно немного: вернуться в прошлое. А сделать это нам помогают веб-архивы.

Помогаем
Собираем на дрон для штурмовиков Николаевской области. Он поможет найти и уничтожить врага

Редакция MC.today разобралась, что такое веб-архивы, какие актуальные ресурсы есть в интернете и для чего их используют.

Содержание

  • Что такое веб-архивы?
  • История появления
  • Назначение веб-архивов
  • Веб-архивы против «вымирания» ссылок
  • Действующие веб-архивы
  • web.archive.org
  • archive.today
  • Что делать, если страницу удалили и ее нет ни в одном из архивов?
  • Как скачать сайт из веб-архива?
  • Как узнать все страницы сайта в веб-архиве?
  • Как запретить добавление сайта в веб-архив

Что такое веб-архивы?

Веб-архив – это сервис, который собирает и сберегает копии сайтов. При этом для каждого сайта сохраняется не одна, а множество, иногда тысячи, версий за разные даты. 

Что такое веб-архив

Благодаря этому можно проследить историю изменения сайта с момента возникновения, найти информацию, которую удалили, и даже восстановить свой сайт, когда нет резервной копии. 

История появления

С древнейших времен люди пытались сохранить и передать потомкам накопленные знания. В III веке до нашей эры крупнейшим в мире собранием научных трудов стала Александрийская библиотека в Египте. А в 1996 году американский инженер Брюстер Кейл назвал в честь нее свою коммерческую систему веб-архивирования Alexa Internet

Курс
Full Stack розробка
Навчайтесь за вільним графіком, щоб стати універсальним фахівцем зі знанням Back-end та Front-end. Заробляйте $1300 на місяць
РЕЄСТРУЙТЕСЯ!

Подобно Александрийской библиотеке, Alexa собирала и информацию, но уже в сети Интернет. С помощью фирменной панели инструментов пользователь мог получить данные о каждом посещенном сайте: имена владельцев, количество страниц, как часто сайт обновляется и много ли на него ссылок в других ресурсах.

Wayback Machine

Позже помимо сканирования, специальные поисковые роботы компании стали архивировать веб-страницы. Эту информацию нужно было как-то систематизировать. Так в 2001 году появился Wayback Machine, или цифровой архив Всемирной паутины, в котором сегодня насчитывают более 740 млрд веб-страниц.

Назначение веб-архивов

Изначальной целью проекта, по словам его создателей, был «универсальный доступ ко всем знаниям» путем сохранения архивных копий страниц. Но, как и всякое дальновидное начинание, веб-архив показал, что его предназначение не ограничивается только этим. Вот что сегодня можно сделать с его помощью.

  • Ввести в строку поиска название любимого сайта, чтобы просмотреть, как он выглядел 5, 10 или даже 20 лет назад. Узнать о чём тогда писали газеты, что обещали политики и какой, например, процессор знатоки советовали ставить в «ПК месяца» за 2001 год.

    Рубрика «ПК месяца» на сайте itc.ua за 2001 год

  • Восстановить резервную копию своего сайта. Правда сделать это вручную будет довольно сложно, так как ссылок могут быть тысячи. Поэтому лучше использовать парсер – специальный сервис, который автоматизирует процесс сбора информации в архиве.
  • Маркетологи и специалисты по СЕО могут проанализировать изменение интересных им сайтов за определенный период.
  • Журналисты и все любопытные граждане могут найти уникальную информацию, которую удалили, например, в результате цензуры.
  • Покупатели доменов могут проверить перед покупкой их историю, чтобы убедиться, что прежние владельцы не публиковали сомнительный контент.

Веб-архивы против «вымирания» ссылок

На фоне борьбы с дезинформацией в интернете стала актуальной проблема «вымирания» ссылок. И, как оказалось, без веб-архива тут тоже никак. Дело в том, что жизнь многих веб-страниц длится недолго. Причины этому могут быть самыми разными. Иногда владельцы сайтов забывают продлить хостинг, просто не заинтересованы в дальнейшей поддержке своих проектов или удаляют статьи, чтобы заменить их новыми. Бывает, что битые ссылки появляются в результате технических неполадок или изменения файловой структуры.

Согласно исследованию The New York Times, более четверти всех ссылок, когда-либо появлявшихся на страницах онлайн-версии издания, сегодня неактивны. А для публикаций за 1998 год эта цифра и вовсе составляет колоссальные 72%.

Вы скажете: «Подумаешь, одни ссылки пропали, другие появились, а в целом ничего не изменилось». Но ситуация хуже, чем может показаться на первый взгляд, и касается всех нас. Судите сами: с помощью этих ссылок сайты могут нести ценную научную информацию или доказывать какие-то спорные утверждения. А потом всё исчезает в одну ночь.  

В лучшем случае ссылка становится недоступной. В худшем – такие мертвые ссылки находят злоумышленники, выкупают домен для себя и подменяют первоначальный вариант статьи выгодной им дезинформацией. Поэтому, например, Википедия убедительно просит своих авторов подкреплять цитаты ссылкой на страницы из архива Wayback Machine, где их никто не сможет изменить.

Действующие веб-архивы

На сегодня веб-архив, который основал Брюстер Кейл, остается старейшим и самым полным собранием архивных копий сайтов. Но кроме него есть и другие, которые отличаются перечнем доступных ресурсов, дополнительными функциями, но призваны решать ту же задачу.

  • Web.archive.org – самый старый и самый полный из всех архивов. Копии страниц с 1998 по 2012 год можно найти только тут.
  • Archive.today – начал работу в 2012 году. В отличие от Wayback Machine не использует поисковых роботов и архивирует страницы только по запросу пользователей. Имеет несколько зеркал: archive.is, archive.li, archive.ph,  archive.fo и другие.
  • Perma.cc – некоммерческий сервис по архивированию интернет-источников, цитируемых в научных работах. 
  • Webcite – открылся в 2003 году и обрабатывал запросы только на сохранение отдельных страниц. В данный момент сервис свернул работу и не принимает новых заявок, но всё еще продолжает обслуживать созданные архивы.
  • Web-arhive.ru – образец того, так хорошая идея может порой трансформироваться до неузнаваемости. Основное направление сервиса – создание заверенных копий сайтов, социальных сетей и переписки для использования в суде.

web.archive.org

Рассмотрим возможности сервиса подробнее. На главной странице мы видим форму для поиска. В нее можно вставить адрес любого интересного вам сайта и нажать «Ввод». После это этого архив сформирует календарь, в котором представлены все сохраненные копии ресурса от самой старой до наиболее актуальной.

Архивные копии сайта MC.today за 2022 год

Как видим, в 2022 году копии сайта MC.today сохраняются каждый день. Но если вернуться в 2018 год, то их уже намного меньше. Цвет и размер точек, которыми обозначены сохранения, имеет значение. Чем больше диаметр точки, тем больше копий сайта было сделано в этот день. Голубой и зеленый цвета говорят, что архивация прошла успешно. Оранжевый указывает на допущенные при архивации ошибки. Красный означает, что ошибки были критическими. 

Копия главной страницы сайта MC.today за 19 марта 2021 года

Отсюда ясно, что для просмотра лучше всего выбирать голубые точки. Выберем для нашего сайта одну из них, например, за 19 марта 2021 года. При клике по выбранной ссылке откроется страница сайта, какой она была в то время. При этом все ссылки будут активными. По ним можно перейти к одной из статей или выбрать другую дату, чтобы продолжить просмотр.

инструмент Changes

Посмотреть изменения в содержимом заархивированных страниц позволяет инструмент Changes. Выберите две даты для сравнения и нажмите кнопку Compare. Сервис отобразит на экране оба варианта страницы и выделит желтым цветом удаленный, а голубым – добавленный контент.

Вкладка Save Page Now

Чтобы сохранить текущую версию сайта в веб-архиве, найдите на его главной странице вкладку Save Page Now. Затем введите ссылку и нажмите «Сохранить страницу». Подобную процедуру советуют выполнять перед всеми серьезными изменениями сайта. Тогда даже в случае утраты резервной копии восстановить сайт можно будет из веб-архива.

Если место адреса страницы ввести поисковый запрос, то сервис выдаст всё, что по этой теме есть в сохраненных сайтах. Есть также возможность посмотреть архивную копию страницы за определенную дату. Для этого введите в адресную строку конструкцию типа http://web.archive.org/web/20220224/https://mc.today/, где 20220224 – год, месяц и день, а mc.today можно заменить на адрес нужного вам сайта.

archive.today

На главной странице выделяются две ярких формы. Верхняя красная позволяет архивировать страницу. Нижняя серая помогает найти сайт среди уже сохраненных. Например, для сайта pravda.com.ua сервис нашел более 157 сохранений с 2017 до 2022 года и около 50 более старых, начиная с 2012 года.

Пример работы сервиса archive.ph

Интересно, что archive.ph игнорирует стандартный запрет доступа для поисковых роботов с помощью файла robots.txt. За счет этого в его поиске можно обнаружить и те сайты, владельцы которых запретили архивацию.

Что делать, если страницу удалили и ее нет ни в одном из архивов?

Возможно страницу удалили раньше, чем она смогла попасть в веб-архив. Но вариантны всё равно есть. Во-первых, нужно поискать в кэше Google. Для этого нужно ввести в адресную строку ссылку типа cache:URL, где URL – адрес страницы, которая вам нужна. Например, cache:https://mc.today/uk/.

Поиск в кэше Google

В моем случае над копией страницы появилась надпись: «Это версия страницы https://mc.today/ из кеша Google. Она представляет собой снимок страницы по состоянию на 7 окт. 2022 09:42:55 GMT». Ссылки на сохраненные страницы можно найти и в простой поисковой выдаче. Для этого нужно нажать на треугольник рядом с адресом страницы и выбрать пункт «Кэш».

Как выбрать пункт «Кэш» в результатах поиска

Однако следует понимать, что в кэше хранится только самая актуальная копия каждой страницы. При каждом обходе поискового робота он перезаписывает ее на новую, а старые версии удаляет. Определить частоту обновления кэша в Google довольно сложно. Она может варьироваться от 1 до 15 дней. Но известно, что Яндекс и китайский поисковик Baidu обновляют кэш 1–2 раза в неделю. Значит, если страницу удалили пару дней назад, то шансы найти ее в кэше одной из поисковых систем всё еще велики.

Главная страница сайта CachedView.com

Чтобы не перебирать все их по очереди, пользуйтесь специализированным сервисом CachedView.com. Он позволяет одновременный поиск по кэшу Google и Archive.org, а также системе распространения контента Coral Cache. Аналогичный функционал имеет поисковик http://www.cachedpages.com/.

Как скачать сайт из веб-архива?

Мы уже разобрались, как найти архив сайта при помощи Wayback Machine. Но страниц на сайте, как правило, слишком много, чтобы скачать все их вручную. К тому же набор разрозненных файлов не поместишь на сервер. Для начала нужно восстановить структуру папок и ссылок исходного сайта. Всё это без труда сделает программа Wayback Machine Downloader.

Итогом ее работы будет папка вида /websites/example.com с последними сохраненными версиями каждого файла и страницей index.html. Затем ее можно поместить на сервер, чтобы запустить копию сайта. Иногда требуется скачать не весь сайт, а только какую-то его часть с изменениями за всё время. С этим поможет инструмент Waybackpack. 

Как узнать все страницы сайта в веб-архиве?

Список всех заархивированных страниц сайта

Wayback Machine позволяет получить список всех заархивированных страниц сайта. Для этого нужно ввести в адресной строке https://web.archive.org/web/*/[URL]/*. На примере нашего сайта видно, что архив выдал больше десяти тысяч ссылок, которые можно дополнительно отфильтровать по ключевым словам и типу. 

Как запретить добавление сайта в веб-архив

Не все владельцы сайтов хотят, чтобы их проекты сохранялись в Wayback Machine. Одни опасаются за свой уникальный контент и не хотят, чтобы кто-то его использовал в случае удаления сайта. И эти опасения действительно имеют под собой почву. Ведь в Сети полно инструкций, как без особых затрат пополнить содержание своего сайта полезным контентом с закрытых ресурсов. 

Другие собираются продавать домен и не заинтересованы, чтобы его содержание связывали с новыми владельцами, или хотят таким образом защитить личную информацию. В любом случае добавление сайта в архив можно запретить. 

Проще всего это сделать через изменение настроек файла robots.txt, который блокирует доступ для поисковых роботов. В результате запрета роботы перестанут сканировать сайт, и новые страницы с него архивироваться не будут. Но собранная ранее информация всё еще останется доступной.

Чтобы ее удалить, достаточно отправить запрос с указанием доменного имени на почту [email protected]. Важно также, чтобы письмо было отправлено с почты в домене вашего сайта. Обычно вопрос решается в течение трех дней и сайт полностью исчезает из архива. Аналогичным образом ресурс можно восстановить в Wayback Machine.

Итак, веб-архив – это бесплатный проект, цель которого собрать и сохранить весь доступный в интернете контент. С помощью инструмента Wayback Machine в архиве интернета легко найти копии интересного вам сайта за выбранную дату, что может пригодиться в самых разных ситуациях. Например, позволит восстановить страницы после хакерской атаки, проанализировать изменения проекта или просто узнать о чём любимый сайт писал 20 лет назад.

Поделиться
Поделиться сюжетом
Источник материала
20-летняя модель завоевала титул «Мисс Украина 2024»: она представит страну на конкурсе «Мисс Мира»
Gloss
2024-12-06T16:30:50Z
В сети рассекретили имя мужчины, который должен был стать героем шоу «Холостяк-13» вместо Терена
Gloss
2024-11-29T17:16:39Z
Украинский Щедрик стал частью новогодней рекламы Chanel
Gloss
2024-11-22T16:13:24Z
Украинка стала режиссером нового клипа Леди Гаги
Gloss
2024-10-30T15:28:08Z
Рэпер Эминем впервые станет дедушкой: видео его реакции на новость
Gloss
2024-10-04T16:48:49Z
Linkin Park возвращается с новой вокалисткой спустя 7 лет после смерти фронтмена
Gloss
2024-09-06T15:22:47Z
Мадонна отметила свой 66-й день рождения в шляпе от украинского бренда
Gloss
2024-08-28T12:00:55Z
Анонимная певица Klavdia Petrivna впервые показала свое лицо в новом клипе с группой Tvorchi
Gloss
2024-08-23T15:52:15Z
Первая среди украинских звезд: Светлана Лобода спела для Грэмми
Gloss
2024-08-20T13:43:04Z
МастерШеф 14 сезон. Випуск 18 від 28.12.2024
InfoHome
2025-01-08T16:45:55Z
Balenciaga представила очень минималистичную обувь The Zero
Gloss
2024-12-04T18:36:54Z
Аукционный дом MacDougall;s проведет перед аукционную выставку 22-23 ноября в Лондоне
Ukraine Art News
2024-11-12T20:18:58Z
Самые смешные фотографии дикой природы: финалисты конкурса Nikon Comedy Wildlife Awards 2024
Gloss
2024-09-30T13:13:29Z
Надя Дорофеева презентовала клип на новую песню «Нитроглицерин»
Gloss
2024-08-07T15:40:50Z
Balenciaga выпустили самую дорогую в мире авоську за 7 тысяч долларов
Gloss
2024-07-17T16:30:55Z
В Steam стартовал фестиваль файтингов
Overclockers
2024-07-16T06:52:19Z
ЗНАКОМСТВО С ЛОНДОНСКОЙ ХУДОЖНИЦЕЙ ЛАРОЙ ДЖУЛИАН
Ukraine Art News
2024-06-08T15:42:56Z
Right 2 Fitness Unveils New Metabolic Ignition System for Women Over 30
Elle
2024-05-27T13:28:03Z
PUMA выпустила коллаборацию с «‎Игрой в кальмара»: костюмы, кроссовки и аксессуары
Gloss
2025-01-07T14:06:52Z
Netflix показал тизер финального сезона сериала "Игра в кальмара": известна дата премьеры
Gloss
2025-01-03T13:43:02Z
Состоялась премьера второго сезона сериала «Игра в кальмара»: где смотреть
Gloss
2024-12-26T13:51:55Z
Netflix показал тизер мультсериала про Астерикса и Обеликса – видео
Gloss
2024-12-16T16:33:46Z
Вышел первый полноценный трейлер фильма Minecraft
Gloss
2024-11-20T14:43:04Z
Украинский трейлер фильма «Аматор» с Рамі Малеком
KinoFilms
2024-11-18T09:46:00Z
Украинский трейлер мультфильма «Нико: за Северным сиянием»
KinoFilms
2024-11-18T09:24:35Z
Украинский трейлер эротического триллера «Хорошая плохая девочка» с Николь Кидман
KinoFilms
2024-10-29T16:12:34Z
Первый трейлер сериала «Дюна: Пророчество» и дата премьеры
Gloss
2024-10-28T13:10:35Z
Гольф на снегу
Men's Life
2024-12-30T20:57:37Z
Стала известна судьба собаки, которую заметили на вершине 140-метровой пирамиды Египта
Gloss
2024-10-24T17:16:12Z
В Берлине открыли самые высокие качели в Европе – видео
Gloss
2024-10-14T15:15:49Z
Доступ к реке: 6 идей, как киевляне могут получить комфортные набережные
Хмарочос
2024-09-30T13:23:52Z
ТОП-8 экстремальных видов спорта
Men's Life
2024-08-19T07:57:54Z
В Китае открыли 24-километровый морской мост, который побил сразу 10 мировых рекордов
Gloss
2024-07-03T12:40:09Z
Самый большой в мире круизный лайнер Icon of the Seas отправился в свой первый рейс
Gloss
2024-01-29T17:51:45Z
Самые комфортные места для жизни уже в недалеком будущем
Men's Life
2024-01-24T08:33:40Z
Культурное значение шампанского в разных странах
Gloss
2023-11-29T10:12:53Z
Немецкий политик писал пошлые комментарии моделям OnlyFans, не зная, что они публичные
Gloss
2025-01-09T14:21:48Z
Миозит - заболевание офисных работников
Men's Life
2025-01-08T09:13:01Z
Советы мужчинам по уходу за собой
Men's Life
2025-01-07T09:33:47Z
Упражнения для улучшения слуха
Men's Life
2025-01-06T09:00:46Z
МастерШеф 14 сезон. Выпуск 17 от 21.12.2024
InfoHome
2025-01-03T12:12:50Z
Как не набрать лишний вес во время праздников?
Men's Life
2024-12-27T18:39:52Z
13 украинцев купили новый Rolls-Royce Spectre стоимостью более €600 тысяч: кто они
Gloss
2024-12-27T16:51:51Z
В России сняли ролик, как ПВО сбивает Санта Клауса в небе над Москвой
Gloss
2024-12-27T15:28:27Z
Рейтинг бюджетных кормов для собак
Gloss
2024-12-27T12:33:48Z
Роботы Boston Dynamics не только стабильно стоят на ногах, но и научились делать сальто
Gloss
2025-01-02T13:24:49Z
Всемирно известный блогер MrBeast построил город за $14 млн для своего шоу
Gloss
2024-12-17T14:11:03Z
OpenAI запустила нейросеть Sora, которая может создавать видео из текста
Gloss
2024-12-10T15:19:34Z
Купил – поюзал – утилизировал: новая экоинициатива оʼgо
Gloss
2024-12-06T14:19:05Z
The Septimius Awards: Jan-Willem Breure is breaking traditional rules of cinema
Elle
2024-11-22T06:42:45Z
Резиденцию Дональда Трампа охраняют роботы-собаки: что о них известно
Gloss
2024-11-18T14:40:27Z
Coca-Cola обновила свою культовую рождественскую рекламу с помощью ИИ
Gloss
2024-11-18T13:37:48Z
OpenAI добавляет в ChatGPT функцию веб-поиска
Overclockers
2024-11-01T07:52:06Z
AMD подготовила драйвер специально для Dragon Age: The Veilguard
Overclockers
2024-11-01T07:19:09Z
Гости без рецепта не уйдут! Салат фантазия из простых продуктов
InfoHome
2025-01-08T16:49:07Z
Никакого мяса не надо. Вкусная перловая каша в сковороде
InfoHome
2025-01-08T16:45:54Z
Больше не жарю рыбу! Дешевый и полезный рецепт! Хек в соусе на сковороде
InfoHome
2025-01-03T12:15:47Z
Зачем я только нашла этот рецепт Вкуснейшие блины с двойной начинкой!
InfoHome
2025-01-03T12:12:50Z
Торт Дамский каприз
InfoHome
2024-12-27T07:51:43Z
Перемешайте фарш с хлебом! Век живи век учись! Долго искал и наконец то нашел правильный рецепт!
InfoHome
2024-12-27T07:09:50Z
Оливье по-особенному. Добавляем копеечный ингредиент!
InfoHome
2024-12-19T10:36:53Z
4 начинки для лаваша! Идеальная закуска на праздничный стол
InfoHome
2024-12-17T07:33:48Z
Салат Курочка под кайфом. Готовлю на любой праздник. Нравится всем!
InfoHome
2024-12-17T07:28:31Z