ВЕБ-архив

7 мин
31878
Команда AskUsers
Команда AskUsers
16 апреля 2024 • 7 мин
Содержание

Что такое веб архив?

Веб-архив — это хранилище разных версий сайтов. Его задача — сохранять контент, который может быть утерян из-за эфемерной природы интернета. Содержание часто корректируется, страницы удаляются или перемещаются, а архивирование — это способ восстановить «исторические снимки» этого цифрового контента. Самый известный сервис — Wayback Machine компании Internet Archive, в котором хранятся сотни миллиардов страниц.

Заказать юзабилити-аудит сайта CTA-баннер.png

Архивы — ценный ресурс для разных специалистов: от исследователей, изучающих эволюцию сетевой культуры, до веб-дизайнеров, проводящих аудит удобства использования, и юристов, нуждающихся в доказательствах или данных о содержании сайта в конкретный момент времени.

Однако не все страницы могут быть заархивированы полностью, например, из-за наличия условий в файлах robots.txt, которые могут препятствовать процессу. Кроме того, интерактивные элементы — формы или некоторые виды взаимодействия JavaScript, могут не сохраниться.

Зачем UX-специалисту Web Archive?


  • Анализ изменений: они позволяют отслеживать корректировки на сайте с течением времени. Вы можете увидеть, что было добавлено, удалено или исправлено и как эти изменения повлияли на поведение пользователей и производительность.

  • Сравнительный анализ: если у вас есть записи о прошлых версиях, вы можете сравнить юзабилити актуального дизайна с предыдущими, чтобы понять, привели ли изменения к улучшениям или создали новые проблемы.

  • Выявление тенденций: анализируя изменения в динамике, можно определить тенденции в дизайне, контенте и навигационных стратегиях. Эти выводы могут помочь в принятии решений.

  • Обработка ошибок: иногда изменения, внесенные в прошлом, могли привести к снижению удобства использования. Изучение прошлых версий позволяет определить, что было сделано не так, чтобы избежать повторения ошибок в будущем.

  • Восстановление утраченной информации: в некоторых случаях нужные данные или функции ненамеренно удаляются. Web archive помогает найти удаленную информацию и при необходимости восстановить ее.

  • Анализ конкурентов: в архивах можно найти информацию не только о своем домене, но и о других. С их помощью можно просмотреть прошлые копии страниц конкурентов: история изменений поможет понять, какие стратегии они используют.

  • Поиск битых ссылок: просматривая предыдущие версии, можно найти ссылки или упоминания, которые раньше работали, а теперь не нужны. Это поможет устранить часть проблем обслуживания сайта.

Как использовать веб-архивы?

Вы можете по-разному использовать данные архивов в зависимости от задач. Разберем общие функции, которые могут потребоваться при работе.

Как получить доступ к Web Archive: пошаговая инструкция

Шаг №1. Войдите в архив

Зайдите на Wayback Machine по адресу https://archive.org/web/


Шаг №2. Введите URL-адрес

Введите в строку поиска ссылку сайта, который вы хотите изучить. Это может быть URL главной страницы или отдельного раздела. В верхней части вы увидите временную шкалу и график. Временная шкала показывает год, а график — количество доступных снимков за каждый год.


В разделе «Календарь» вы можете просмотреть историю сайта, а во вкладке «Изменения» выбрать конкретные события для изучения.


Шаг №3. Выберите год

Кликните на конкретный год, чтобы просмотреть снимки за это время. Под графиком появится календарь за этот с выделенными датами, показывающими, когда был сделан скриншот.

Шаг №4. Выберите точную дату

Нажмите на выделенную дату, чтобы просмотреть снимок, сделанный в этот момент. Откроется новая страница с архивной версией. Пример сайта Askusers:


Шаг №5. Изучите сайт

Теперь вы можете просматривать его в том виде, в котором он был на момент сохранения данных. Помните, что не все элементы работают точно так, как они работали изначально, особенно если вы смотрите на интерактивные компоненты.

Шаг №6. Переключайте версии, используя стрелки

Если вы хотите сравнить различные версии сайта, вы можете переключаться между ними с помощью временной шкалы в верхней части экрана.

Как сохранить текущую копию страницы

В сервисе есть функция сохранения страницы. Она может быть полезны, когда:

  • Вы собираетесь внести существенные изменения в дизайн или наполнения. Фиксирование текущей версии позволит вам вернуться в любой момент и посмотреть, как выглядел сайт до внесения изменений.

  • Вы планируете удалить определенные страницы или контент. Их можно сохранить для последующего использования.

  • Требуется доказательство того, что выбранная страница существовала или на ней был определенный контент. Архивирование создает запись с временной меткой, которую можно использовать в юридических делах как документальное подтверждение.

  • Нужно создать резервную копию контента.

  • Вы проводите анализ конкурентов в динамике.

Функция расположена в правом нижнем углу главной Wayback Machine. Введите URL нужной страницы и нажмите «Сохранить». После этого краулер попытается скопировать ее.


После завершения архивная версия будет доступна для просмотра. Однако, некоторые владельцы сайтов запрещают архивирование: в таком случае сервис выдаст ошибку, а вы не сможете просмотреть содержимое.

Как удалить копию из Web Archive

Как правило, удалить сохраненную страницу из архива нельзя, поскольку это противоречит миссии проекта. По этой причине в сервисе нет такой функции. Однако есть исключения:

  • Вы можете запретить краулерам делать копии: для этого нужно прописать условия в файл Robots.txt. Однако это не всегда работает.


  • Добавление этого условия может не только предотвратить будущую архивацию, но и удалить старые версии. Вы больше не сможете восстановить сайт из архива.

  • Вы можете написать в службу поддержки. В некоторых ситуациях они рассматривают может запросы на удаление. У него нет четкого документального описания, но вы можете написать им на электронную почту ( info@archive.org) с просьбой об удалении определенного контента. При этом необходимо четко обосновать просьбу об удалении, приложить право на владение доменом. Однако решение остается на усмотрение архива.

  • Право Евросоюза на забвение: если вы находитесь в Европейском Союзе или к вашему проекту применимо законодательство ЕС, вы можете подать запрос на удаление данных, опираясь на юридические документы. Однако этот процесс имеет особые условия и требования, и не все запросы могут быть удовлетворены.

Как восстановить сайт


Восстановление из Wayback Machine или других веб-архивов может быть довольно трудоемким процессом, особенно если на сайте много страниц. Вы можете пользоваться этой инструкцией:

  1. Сначала определите все страницы вашего сайта, которые были помещены в архив. Это можно сделать, введя корневой домен в Wayback Machine и просмотрев архивные версии.

  2. Для каждой страницы выберите версию (дату и время), которую необходимо восстановить.

  3. Откройте каждый раздел и вручную скопируйте содержимое в любой текстовый редактор.

  4. Сохраните изображения и другие медиафайлы на свой компьютер. Однако следует помнить, что не все файлы сохраняются в исходном разрешении. Некоторые медиа невозможно восстановить.

  5. Скачайте HTML-код. Файл может быть основой для восстановления, но это не готовая страница, которую можно автоматически загрузить в интернет. Для проработки может потребоваться помощь веб-разработчика или дизайнера, особенно если сайт был сложным.

  6. После восстановления сайта проверьте все страницы и ссылки, чтобы убедиться, что все работает правильно. Возможно, потребуется также обновить утраченные SEO-метаданные.

Существуют также сервисы, позволяющие автоматизировать некоторые части этого процесса, например, Wayback Machine Downloader или Httrack. Однако обычно эти инструменты платные, а результаты все равно требуют ручной проверки и доработки для обеспечения их точности и функциональности.

Заключение

Веб-архивы — это полезный инструмент для UX/UI-дизайнеров, SEO-менеджеров, владельцев сайтов и других специалистов, работающих в интернете. Так, дизайнеры могут отслеживать тенденции, находить эффективные и ошибочные решения, использовать разные версии для сравнения. В SEO web archive используют для ретроспективного аудита, разработки стратегий использования ключевых слов и схем размещения ссылок.

Сервисом можно пользоваться для сохранения предыдущих версий с возможностью восстановления информации. Функция сохранения позволяет создать запись страницы с временной меткой, которая может быть использована для разных целей: от документирования изменений до юридического подтверждения существования контента.

Однако важно помнить об ограничениях и этических аспектах использования веб-архивов. Не все элементы сохраняются, особенно динамические и интерактивные, а некоторые страницы могут быть исключены из-за robots.txt. Кроме того, при использовании и сохранении веб-страниц необходимо соблюдать конфиденциальность с авторскими правами. При правильном, ответственном использовании web archive может стать мощным инструментом, помогающем повысить эффективность вашего проекта, а так же вы можете заказать usability интернет-магазина у нас для повешения эффективности вашего проекта.



Понравилась статья? Жмите лайк или подписывайтесь на рассылку.

А также поделитесь статьей с друзьями в соцсетях.

Команда AskUsers
Команда AskUsers
Популярные статьи