Машина времени в Интернете

pic

Вот, новый поворот
И мотор ревет
Что он нам несет
Радость или взлет?

Ну откуда же еще могут быть эпиграфы в статье с таким-то названием?

Что такое Интернет? Попробуйте сформулировать, предложите сделать это знакомым — все ответы будут разными. Это не просто хранилище информации, а некая новая, невиданная ранее сущность, имеющая экономические, этические, эстетические, криминальные и прочие проявления в реальной, несетевой жизни. Многочисленные публицисты-аналитики сравнивают Интернет то с гигантской свалкой, в которой есть все, но неимоверно трудно найти то, что надо, то с бактерией, попавшей в питательную среду и взрывообразно растущей за счет впитывания информации, то с зыбучим песком, затягивающим психику каждого, кто соприкоснулся с этим чудом.

Нас же сейчас интересует вопрос исторический, ведь Интернет представляется еще и этаким бурлящим Солярисом, ежемесячно, ежедневно и ежечасно меняющим облик, внешний вид и содержание бесчисленных страниц, да и сами страницы беспрестанно рождаются, развиваются, некоторые умирают. Вся история Интернета, если считать от изобретения Тимом Бернерсом Ли в 1994 году WWW, не насчитывает и десяти лет, но учитывая необычайную насыщенность и динамичность развития, видим, что по значимости событий и скорости их мелькания эти годы соизмеримы с веками досетевого развития. Согласно статистике, средняя «продолжительность жизни» веб-документа — около 100 дней, после этого он либо изменяется, либо бывает просто удален. По тем же данным, средняя продолжительность существования сайта равна 19 месяцам. Этот процесс неизбежно связан с утерей старых страничек, исчезнувших сайтов, прежних вариантов оформления ныне здравствующих проектов. А ведь это все представляет ценность — ибо это наша с вами история, история человечества, история информации. Жалко. На этот пробел в нашей истории обратил внимание Брюстер Кахл, запустивший в 1995 году проект Wayback Machine. Это сверхгигантский интернет-архив, проводящий постоянное сканирование сети и архивацию страничек. За неполные восемь лет в единой базе данных собрано около 10 миллиардов страниц, включая графику. Темпы прироста объема сохраняемой информации просто фантастические — ежедневно добавляется около 250 гигабайт, более 12 терабайт данных поступает ежемесячно. Сейчас (данные на осень 2002 года) база располагает документами, общий объем которых составляет более 120 терабайт. Wayback Machine — сестринская компания поисковика Alexa Internet, поисковые пауки которого также участвуют в сборе данных в базу архива. Пауки, или спайдеры, — программы, которые являются частью поисковых служб (типа Яндекса, Google и т.п.) и которые, двигаясь по ссылкам, закачивают веб-страницы для дальнейшего их индексирования. Публичный доступ к интернет-архиву открыт с октября 2001 года.

Хочу! Хочу! Хочу!

Каждый, право, имеет право
На то, что слева, и то, что справа.

Самое приятное то, что доступ не только совершенно бесплатный (то есть даром), но и не требует регистрации, заполнения форм, сообщения вашего почтового адреса, обязательного ознакомления с правилами и подтверждения соглашения с ними — непременных атрибутов всяких пустяшных копеечных проектов. (Вот бы на кого надо равняться в этом вопросе.) И мы с вами запросто можем совершить путешествие по времени. Для этого всего лишь надо набрать адрес http://www.archive.org/ и в единственное окошечко ввести адрес странички, на которую вы хотите попасть в прошлом. (К сожалению, пока Wayback Machine не располагает возможностью поиска по содержанию сайтов, подобно поисковым серверам вроде Яндекса — так что для того, чтобы попасть на необходимую страницу, пользователь должен знать ее конкретный URL, или, по крайней мере, адрес сайта.) Вопрос в выборе сайта? Если у вас есть страничка, которую вы несколько лет сопровождаете, просиживая все ночи над оформлением и содержанием, обсуждением которой замучили домочадцев и сослуживцев, не можете сосредоточиться на любом разговоре не по теме вашей странички, то для вас такого вопроса не существует. Конечно же, отправляемся на Арбуз, размещавшийся раньше на Народе. Вводим адрес http://arbuz.narod.ru, жмем кнопку «Take me back» (Переместите меня назад) и через минутку получаем меню с запомненными в суперархиве вариантами.
Выбираем дату — май 2001 года и через некоторое время с волнением встречаем восставший из прошлого такой до боли знакомый, выстраданный Арбуз двухлетней давности.
Конечно, все было не так гладко, пришлось подождать с загрузкой и поковыряться в воссозданном html — на Java-скрипты и кнопки счетчиков машина времени выдавала предупреждения о невозможности их восстановления. Но это такая мелочь перед радостью от встречи с любимым детищем, тогда еще с фреймами, со счетчиком «Рамблер-100», без каскадных стилей, SSI и прочих поздних усовершенствований, атрибутов солидности и зрелости.
Для серьезной работы с архивами существует «страница специального поиска» http://web.archive.org/collections/web/ advanced.html, на которой можно уточнить временной диапазон и воспользоваться серией весьма важных настроек. Так, например, здесь можно ограничить тип документов, по которым производится поиск (один из вариантов — images, audio, video, binary, text или PDF; по умолчанию стоит All types), определить, будет ли производиться поиск, только однозначный поиск по заданной ссылке или следует учитывать подобные варианты (выводить yahoo.com, www.yahoo.com и yahoo.com/index.html отдельно или «расценивать» равными) и некоторые другие. При желании удалить ваши ресурсы из архива можно воспользоваться специально предусмотренной для этого возможностью великого архиватора.

Как это делается —
трудовые будни волшебников

Кукол снимут с нитей длинных
И, засыпав нафталином,
В виде тряпок сложат в сундуках

Можно предположить трудности, с которыми столкнулись разработчики Wayback Machine. Даже простое обслуживание и сопровождение архива емкостью 120 терабайт необычайно затруднительно. Поисковые машины, сканирующие сеть, должны сравнивать найденные страницы (при канале 100 Мб/с это около 150 миллионов страниц за неделю) с существующими в архиве во избежание копирования дублей, это перегружает оперативную память и тормозит «паука». Еще трудности широкого поиска — нагрузка на сервера сайтов. Не каждый из них способен выдержать натиск мощного поискового бота, «потребляющего» десятки миллионов страниц ежедневно. Так что в данной ситуации возможны два выхода — либо программа-робот будет достаточно «разумной» для того, чтобы ограничить натиск на сервер, либо последний имеет все шансы «упасть». Да и сам сайт Wayback Machine не всегда бывает доступен — иногда при заходе приходится любоваться пояснением относительно того, что в связи с «непредвиденно высоким уровнем запросов» сайт в дауне, или «Internet Archive Site временно недоступен в связи с техобслуживанием». Следует отметить, что посещаемость у архива действительно немаленькая, достигающая в среднем около 5 миллионов посетителей в сутки. А кто же за все это платит? Ведь ежегодно на покупку одних только винчестеров идет около 40000 долларов. Физически архив сосредоточен в трех местах — два из них находятся в районе Сан-Франциско, а еще одна база расположена в новой библиотеке Александрии (Египет). Той самой легендарной библиотеке Древнего мира, погибшей в пожаре и восстановленной в наши дни. О ее необычной архитектуре писали в прессе и неоднократно рассказывали по телевидению. Wayback Machine является некоммерческим проектом, и на сайте нет рекламы, которая могла бы хоть в некоторой степени компенсировать расходы. В текущий момент финансирование держится на добровольных взносах отдельных граждан и организаций, а также на грантах. Среди партнеров проекта, приведенных на главной странице, числятся AT&T Research, Compaq (поглощенная Hewlett-Packard), Prelinger Archives, QuantumDLT и Xerox PARC. Кахл возлагает надежды на создание объединенных проектов, что Wayback Machine — только первая из целой сети организаций, которые будут совместно выполнять великую задачу — собирать и сохранять знания и делать их доступными для всего человечества. Здорово, согласитесь, что в одно время с нами живут такие замечательные люди. Цифры взяты из статьи http://www.computerra.ru/compulife/inet/22743/, которая, в свою очередь, ссылается на такие источники: http://www.archive.org/, http://www.newscientist.com/opinion/opinterview.jsp?id=ns23701, http://www.mindjack.com/feature/archive.html, http://www.infotoday.com/online/mar02/OnTheNet.htm

pic

А знаете, что самое интересное в этом нашем путешествии по времени? Ссылки, расположенные на найденных в прошлом страничках, ведут не на современные сайты, а на другие сохраненные страницы. Таким образом, вы в самом прямом смысле находитесь и путешествуете в «Интернете прошлого». Представляете?

Orphus system