Все, что связано с компьютерными программами, интерфейсом и программированием
Ответить
Аватара пользователя
Сухарев
Участник
Баланс:4360
 
Сообщения: 305
Регистрация: 11.11.2019

Цифровой архив Брюстера Кейла - 70 000 терабайт

Сухарев » 27.01.2022 23:27

+
5
-
Internet Archive хранит веб-страницы, книги, аудио- и видеозаписи и даже остатки Александрийской библиотеки

Изображение

«Я выиграл в лотерею интернета», – шутит Брюстер Кейл, который на заре интернета продал две IT-компании и стал мультимиллионером. Проект Internet Archive, которым он занимается уже 25 лет, не приносит лично Кейлу ни цента. Свою должность Кейл назвал не гендиректор, не председатель совета директоров, а «цифровой библиотекарь» (Digital Librarian) Internet Archive.

Сейчас многие пользуются созданным Кейлом сервисом Wayback Machine, который сохраняет все сколь-нибудь важное, что появляется в сети: страницы сайтов, книги, музыку, видео, программное обеспечение. Если вам нужна бумажная книга, ее можно найти в библиотеке: издательства отправляют обязательный экземпляр в соответствующее учреждение (в России – в Российскую книжную палату). А если нужно посмотреть, что обещал на сайте какой-нибудь политик с десяток лет назад, о чем писали закрывшиеся интернет-издания и чем жила всемирная сеть в 2002 г., – вам на помощь придет Internet Archive Кейла.

«Хотя документы в интернете легко собирать и архивировать, средний срок жизни документа составляет 75 дней, а затем он исчезает <...> Это создает проблемы и для историков, и для пользователей», – писал Кейл в опубликованном в 1996 г. манифесте. Он приводит в пример знакомого профессора MIT, который писал книгу на основе источников в интернете. К тому времени, как она вышла, многие упомянутые в ней ссылки приводили на страницу с сообщением об ошибке 404: «Страница не существует или была удалена».

Но амбиции Кейла простираются намного дальше копирования онлайн-контента. Многочисленные добровольные помощники Internet Archive оцифровывают бумажные книги, журналы и газеты. «Наш девиз – всеобщий доступ ко всем знаниям», – объяснял Кейл в интервью сайту Биркбек-колледжа (входит в Лондонский университет). И если его детище не постигнет судьба Александрийской библиотеки, то Кейлу будут безмерно благодарны историки из далекого будущего.

Одно резервное хранилище Кейл разместил в Александрии и сильно беспокоился во время «арабской весны», не нанесут ли ему урон, но все обошлось. Другое находится в Нидерландах. А штаб-квартира Internet Archive и его основное хранилище расположены в здании бывшей церкви в Сан-Франциско.
Чтобы мотивировать людей работать, Кейл придумал оригинальное поощрение. Когда сотрудник проработал больше трех лет, компания изготавливает его статую и помещает на скамью в бывший зал церкви. Кейл называет это «терракотовой армией» – сейчас там более 120 статуй.


Кейл даже пытается воссоздать в интернете Александрийскую библиотеку. «Рукописи Александрийской библиотеки были сожжены, большая часть первых книг не сохранилась, а многие негативы первых фотографий были переработаны для получения серебра», – отмечал он в манифесте.


Alexa, но другая

Кейл, которому в октябре прошлого года исполнился 61 год, вырос в штате Нью-Йорк. Учиться он отправился в MIT. Там началась его карьера в IT – с участия в проекте Thinking Machines. «Его основали Дэнни Хиллис и Шерил Хэндлер, а я стал одним из первых сотрудников – еще до того, как компания была официально зарегистрирована», – вспоминал он на страницах книги Джессики Ливингстон «Как все начиналось» (Founders at Work, 2007).

Thinking Machines занималась созданием суперкомпьютеров, и Кейл приложил руку к их проектированию как ведущий инженер. Этим его роль не ограничилась. Многих молодых ученых, в том числе Кейла, заинтересовал вопрос: а что если научить компьютер отвечать на вопросы пользователей? Упрощенно говоря, они хотели сделать то же, что сейчас умеют все поисковики: выдавать ответы на запросы «Когда был выпущен первый компьютер?» или «Каким был индекс Dow Jones неделю назад?» и т. п. Так внутри компании в 1989 г. возник проект под названием WAIS (сокращение от Wide Area Information Server). Свои базы данных для него предоставили такие компании, как Dow Jones и KPMG. Проект в итоге превратился в информационную поисковую систему, которую могли установить все желающие, чтобы пользователи могли найти нужные документы в огромном массиве публикуемых ими данных. Клиентами WAIS стали The Wall Street Journal, Britannica, Управление правительственной печати США (издает документы органов власти США).

Нельзя сказать, что привлекать клиентов было просто. «В те годы на столах начальников было не найти компьютеров – в лучшем случае они стояли у их секретарей <...> Обычно компьютеры не были подключены к сети, модем был скорее исключением», – рассказывал Кейл (здесь и далее цитаты по книге «Как все начиналось»). С первой встречи до начала переговоров о заключении контракта проходило 9–12 месяцев. Помогали низкие расценки. WAIS использовала открытое ПО и экономила на всем, ее услуги обходились клиенту где-то в $100 000. «Но ведь компании столько платят какому-нибудь Ernst & Young за одно-единственное исследование!» – досадовал Кейл. Для поиска первого клиента Кейлу пришлось переехать. Его ментор сказал: «Отправляйся туда, где тебя не сочтут сумасшедшим с твоей идеей». Дело было в 1990 г. «Бостон [в пригороде которого находится MIT] был в рецессии <...> Калифорния тоже – но там было полно мечтателей», – решил Кейл и сменил штат. Ему улыбнулась удача. Бизнесмен Росс Перо, владевший калифорнийской компанией NeXT, готовился вступить в президентскую гонку 1992 г., и ему нужна была компьютерная сеть, которая связала бы избирательные штабы по всей стране. Перо не победил ни в одном из штатов, зато полученных от него денег хватило на первые годы существования WAIS.

В 1993 г. проект WAIS выделился из Thinking Machines и стал самостоятельной компанией. Было сломано немало копий вокруг того, имеет ли он право отделяться и не должен ли выплатить компенсацию бывшей материнской компании. К счастью для Кейла, если софт создан с элементами открытого ПО (как в случае WAIS), он не может быть ничьей собственностью. «[У WAIS] по сути дела, ничего не было. Это не был стартап с венчурными инвесторами, который можно оценить. Фактически стартап – это было два человека, я и Гарри Моррис, которые уволились и основали свою компанию». К ним присоединился еще Джон Дьюринг, бывший консультант Dow Jones. «Он долго прожил на Западном побережье и хорошо разбирался, как нанять бухгалтерскую и юридическую фирму, на что не стоит скупиться, а где можно сэкономить, как вести переговоры – все те вещи, которым я не научился, пока был программистом в штате компании».

Internet Archive в цифрах
В библиотеке Internet Archive содержатся: 644 млрд веб-страниц, 34 млн книг и текстов, 14 млн аудиозаписей, 7,5 млн видеороликов, 2,3 млн телевизионных новостных программ, 4,1 млн изображений, 801 млн программных продуктов.
Программа оцифровки книг была начата в 2005 г. По данным компании, сейчас сканируется 3500 книг в день в 18 отделениях по всему миру. Архивация телевизионных программ началась в конце 2000 г., первым публичным телевизионным проектом был архив телевизионных новостей, связанных с событиями 11 сентября 2001 г. Одна копия библиотечной коллекции Internet Archive занимает более 70 петабайт серверного пространства. Финансирование происходит за счет пожертвований, грантов и предоставления услуг веб-архивирования и оцифровки книг, выручка от которых в 2019 г. составила $36,7 млн.


В 1995 г. WAIS была продана AOL за $15 млн. В следующем году Кейл основал два стартапа. Один – некоммерческий проект Internet Archive, а второй, сделавший его богачом, назывался Alexa Internet (не путать с одноименным голосовым помощником). В этот раз он был уже известным интернет-предпринимателем, и на посевном раунде удалось собрать $1 млн. Компания Alexa Internet была названа в честь Александрийской библиотеки, а ее целью было помочь людям находить в сети новую информацию. Тулбар (в данном случае – панель в браузере) после захода на сайт предлагал ссылки еще на несколько страниц на интересующую вас тему. Например, если вы открывали новость про недавно вышедшую модель компьютера, Alexa предлагала зайти еще на несколько сайтов, где писали про эту модель или про другие новинки.

Пользователям сервис понравился, Netscape и Microsoft включили тулбар Alexa в свое ПО. Вот только с монетизацией возникли проблемы. Кейл думал зарабатывать на контекстной рекламе, однако в середине 1990-х интернет еще не был настолько развит и предложение не вызвало особого интереса у рекламодателей. Но у Alexa нашелся важный побочный продукт. Чтобы предлагать пользователям ссылки, максимально соответствующие их интересам, программа собирала данные о веб-трафике. Эта технология заинтересовала Amazon, и в 1999 г. Alexa была поглощена детищем Джеффа Безоса за $250 млн.

«Когда я продал WAIS, компания растворилась в AOL, – рассказывал Кейл Forbes. – Так что, когда Безос предложил продать Alexa, я отказался – мол, я уже пробовал подобное <...> Я знаю, как управлять компанией, но не умею управлять подразделением внутри другой компании». В итоге Безос согласился дать Alexa полную автономию, даже сохранить собственный банковский счет. Слово свое Безос сдержал, хотя ради этого ему пришлось защищать Alexa от собственных топ-менеджеров. Первым стал директор по безопасности Amazon, попытавшийся заставить Alexa соблюдать корпоративные меры предосторожности. Кейл категорически возражал: мол, это сделало бы невозможным эффективный сбор информации. После окрика Безоса от Alexa отстали. «Я проработал в Alexa еще три года [после поглощения], что необычно для основателя компании», – подвел итог Кейл.


Реален только интернет

«В наши дни дети (как, впрочем, и большинство из нас) по всем вопросам обращаются к интернету. Если чего-то нет в сети, значит, этого не существует. Поэтому нам нужно переместить все лучшие труды в онлайн, а затем найти механизмы, чтобы ими можно было поделиться со всеми, кому они нужны», – рассуждал Кейл (здесь и далее цитаты по сайту Биркбек-колледжа). Поначалу Internet Archive собирал архив онлайн-публикаций. В 1999 г. к коллекции прибавилось собрание фильмов, в 2001 г. запущена оцифровка бумажных книг. В 2002 г. один из стажеров предложил добавить в архив выступления американской рок-группы Grateful Dead – с тех пор Internet Archive собирает и музыку. «Сначала Internet Archive был архивом интернета, а затем превратился в архив в интернете», – говорил Кейл. И сожалел, что процесс архивации идет медленнее, чем он ожидал.

Одна из главных проблем, с которой столкнулся проект, – возмущение правообладателей. Авторы XIX в. широко представлены в сети, потому что авторские права на их произведения уже истекли, объяснял Кейл. XXI век изначально является цифровым. Но Кейл беспокоится за труды XX в. – их сохранность в опасности, потому что оцифровке сопротивляются правообладатели. В виде компромисса Internet Archive внедрил такую же систему, как офлайн-библиотеки: цифровая копия книги может быть выдана во временное пользование только одному человеку на срок до 14 дней. Но во время пандемии от этой схемы отказались, так как обычные библиотеки были закрыты для посещения. В итоге в июне прошлого года группа издателей (включая Penguin Random House, Harper Collins, Hachette и Wiley) подали иск против Internet Archive, обвинив в пиратстве. Дело еще рассматривается.

Кейл как-то подсчитал, что бюджет американских библиотек – $12 млрд в год. А на оцифровку их коллекций, если подойти к ней рачительно, потребуется всего лишь около $160 млн: «Оцифровка книги обходится всего в 10 центов за страницу, т. е. для книги в 300 страниц всего в $30». К удивлению Кейла, находится множество желающих поработать на проект: «Я думал, что люди посканируют книги месяц-другой и перейдут на другую работу. Но я ошибался. Многие работают у нас годами. Они просто любят книги».

Сейчас в Internet Archive содержится 70 петабайт (70 000 терабайт) информации – веб-страницы, книги, аудио- и видеозаписи и др. Но чем больше объем Internet Archive, тем больше денег требуется на его поддержание, пишет интернет-издание TechRadar. Единственная надежда – что технический прогресс снизит стоимость хранения и обработки данных. Кейл уверяет, что его личных денег вполне хватит, чтобы долгие десятилетия поддерживать работу архива. Но его карман не единственный источник средств. Проект собирает пожертвования (к каждому Кейл прибавляет 41 цент из личных денег, чтобы покрыть комиссии платежных систем) и берет с библиотек плату за оцифровку их коллекций.

Для Кейла важно, чтобы его проект не зависел от нескольких крупных доноров, а жил на пожертвования широкой общественности. «Мы бы могли разглядеть опасность с самого начала, – говорил Кейл TechRadar. – Но, увы, интернет-сообщество не предприняло достаточно усилий, чтобы создать надежные институты по поддержке цифрового мира. В итоге мы рискуем получить информационную среду, в которой небольшая группа компаний и правительств контролирует, что мы читаем. Мы рискуем упустить возможности, которые подарил нам интернет».

Чтобы показать, насколько важен свободный доступ к информации, в конце прошлого года Internet Archive запустил шуточный сайт Wayforward Machine, который показывает, каким будет интернет в 2046 г. Если вбить на нем любой адрес реально существующего сайта, например книжного магазина, у пользователя требуют пройти аутентификацию, предоставив документы – от водительских прав до свидетельства о рождении, биометрию, оплатить доступ к сайту (конечно, все в шутку) и в итоге отказывают с различными формулировками. Или уверяют, что авторское право на запрашиваемый контент продлено еще на 200 лет. А можно получить извещение, что «контент недоступен в вашем политическом блоке». Сам Кейл хотел бы, чтобы в будущем информация распространялась совсем иначе. Его идеал – табличка на входе в Бостонскую публичную библиотеку: «Бесплатно и для всех».

https://www.vedomosti.ru/society/articl ... ovoi-arhiv
Поделиться:

Ответить    ПОМОЩЬ по форуму!