Интернет архив

(пренасочване от Archive.org)

Internet Archive е американска електронна библиотека, основана на 10 май 1996 г. и председателствана от защитника на свободната информация Брюстър Кейл.[3][4] Сайтът предоставя безплатен публичен достъп до колекции от дигитализирани материали, включително уеб сайтове, софтуерни приложения (игри, музика, филми) видеоклипове, движещи се изображения и милиони книги. В допълнение към функцията си за архивиране, Internet Archive е активистка организация, застъпваща се за безплатен и отворен интернет. Към 1 януари 2023 г. Internet Archive съдържа повече от 36 милиона печатни материали, 11,6 милиона парчета аудиовизуално съдържание, 2,5 милиона софтуерни програми, 15 милиона аудиофайла, 4,5 милиона изображения, 251 хиляди концерта и над 808 милиарда уеб страници в своята Wayback Machine.

Internet Archive
Сървърът в Библиотека Александрина в град Александрия, Египет през 2008 г.
Уеб адресarchive.org
Вид на сайтаархив, уеб сайт, организация с нестопанска цел, електронна библиотека, уеб архив
Регистрацияне е задължителна
Езиканглийски
ПритежателInternet Archive
Създаден отБрюстър Кейл
Създаване12 май 1996 г.;
преди 28 години
 (1996-05-12)
Alexa ранг183:[1]
САЩ – 27,4 % (155);
Индия – 17,8 % (91);
Япония – 6,1 % (393)
(към 31 май 2021 г.)
ПриходиПовишение 20,3 милиона щатски долара (2018)[2]
Рекламине
Настоящ статусактивен
Седалище САЩ;
 Египет;
 Нидерландия
Internet Archive в Общомедия

Internet Archive позволява на обществеността да качва и изтегля цифрови материали в своя клъстер от данни, но по-голямата част от данните му се събират автоматично от нейните търсещи роботи, които работят за запазване на възможно най-голяма част от публичната мрежа. Неговият уеб архив, Wayback Machine, съдържа стотици милиарди уеб улавяния. Internet Archive контролира един от най-големите проекти за дигитализация на книги в света.

Сайтът е създаден през 1996 г. от Брюстър Кейл. Към август 2016 г. съдържа 502 млрд. копия на уеб страници. Към март 2019 г. размерът на архива е 60 петабайта[5] Архивът не включва страници от сайтове, които не позволяват (чрез robots.txt) да бъдат индексирани от ботове.

Управление

редактиране

Internet Archive е организация с нестопанска цел, базирана в Сан Франциско, Калифорния, САЩ. Архивът разполага с годишен бюджет от около няколко десетки милиона щатски долара, събиран чрез различни източници, като: уеб услуги, различни партньорства, безвъзмездни средства, дарения и фондация „Kahle–Austin“.[6] Internet Archive управлява периодични кампании за финансиране, както стартиралата през декември 2019 г. кампания, целяща да събере дарения за 6 милиона щатски долара.[7]

До 2019 г. по-голямата част от служителите работят в центровете за сканиране на книги, след което сканирането се извършва от 100 платени оператора по целия свят.[8] Internet Archive разполага с центрове за данни в три калифорнийски града – Сан Франциско, Редуд Сити и Ричмънд. За да се подсигури стабилността и устойчивостта на архива, както да се ускори свалянето и да се разпредели натоварването, пълни копия се поддържат на огледални сайтове в Библиотека Александрина (Египет) и съоръжение в Амстердам (Нидерландия). Архивът е член на Международния консорциум за опазване на интернет.[9] От 2007 г. архивът придобива статус на библиотека.[10]

Архива е основан през май 1996 г. от Брюстър Кейл. През октомври 1996 г. Internet Archive започва да архивира и съхранява глобалната мрежа в големи количества, въпреки че запазва най-ранните страници през май 1996 г.[11] До 2001 г. архивираното съдържание не е публично достъпно, до разработването на Wayback Machine.

Уеб архивиране

редактиране
 
Лого на Wayback Machine, използвано от 2001 г.

Internet Archive се възползва от популярното използване на термина „WABAC machine“ от сегмент на анимационния филм „Приключенията на Роки и Булуинкъл“ и използва името „Wayback Machine“ за своята услуга, която позволява архиви на World Wide Web за търсене и достъп.[12] Тази услуга позволява на потребителите да преглеждат някои от архивираните уеб страници. Wayback Machine е създаден със съвместни усилия на Alexa Internet и Internet Archive, когато е изграден триизмерен индекс, който позволява сърфиране на архивирано уеб съдържание. Милиони уеб сайтове и свързаните с тях данни (изображения, източник код, документи и др.) се записват в база данни. Услугата може да се използва, за да се види как са изглеждали предишните версии на уеб сайтове, да се вземе оригинален изходен код от уеб сайтове, които може вече да не са директно достъпни, или да се посетят уеб сайтове, които вече дори не съществуват. Не всички уеб сайтове са налични, защото много собственици на уеб сайтове решават да изключат своите сайтове.[13]

През октомври 2013 г. е предоставена функция за архивиране „Запазване на страница сега“,[14] достъпна в долния десен ъгъл на главната страница на Wayback Machine. След като се въведе и запази целеви URL адрес, уеб страницата се запазва в Wayback Machine.[14] Чрез интернет адреса web.archive.org[15] потребителите могат да качват в Wayback Machine голямо разнообразие от съдържание, включително PDF и файлови формати за компресиране на данни. Wayback Machine създава постоянен локален URL адрес на съдържанието за качване, който е достъпен в мрежата, дори ако не е посочен по време на търсене в официалния уеб сайт „archive.org“.

Брюстър Кейл говори за методите при архивиране, 2013 г.

Archive-It е услуга за абонамент за уеб архивиране, която позволява на институции и лица да изграждат и съхраняват колекции от цифрово съдържание и да създават цифрови архиви, създадена в началото на 2006 г. Archive-It позволява на потребителя да персонализира заснемането или изключването на уеб съдържание, което иска да запази поради съображения за културно наследство. Чрез уеб приложение, партньорите Archive-It могат да събират, каталогизират, управляват, разглеждат, търсят и преглеждат своите архивирани колекции.[16]

По отношение на достъпността, архивираните уеб сайтове могат да се търсят в пълен текст в рамките на седем дни след заснемането. Съдържание, събрано чрез Archive-It, се заснема и съхранява като WARC файл. Основно и резервно копие се съхраняват в центровете за данни на Internet Archive. Копие от WARC файла може да бъде предоставено на абониращи се партньорски институции за геоизлишно съхранение и съхранение в съответствие с техните най-добри стандарти.[17] Периодично данните, уловени чрез Archive-It се индексират в общия архив на Internet Archive.

Към март 2014 г. Archive-It има над 275 партньорски институции в 46 щати на САЩ и 16 държави, които събират над 7,4 милиарда URL адреса за над 2444 публични колекции. Партньори на Archive-It са библиотеки на университети и колежи, държавни архиви, федерални институции, музеи, юридически библиотеки и културни организации, включително Организацията за електронна литература, Държавен архив и библиотека в Северна Каролина, Станфордски университет, Колумбийски университет, Американски университет в Кайро, Джорджтаунска юридическа библиотека и др.

Internet Archive Scholar

редактиране

През септември 2020 г. Internet Archive обявява, че пуска нова услуга за архивиране и запазване на академични списания с отворен достъп, наречена Internet Archive Scholar.[18][19][20] Тя включва над 25 милиона научни статии и други научни документи, запазени в Internet Archive. Колекцията обхваща от дигитализирани копия на списания от XVIII век до най-новите конферентни сборници с отворен достъп и предпечатни материали от световната уеб мрежа.

През 2021 г. Internet Archive обявява първоначалната версия на General Index, публично достъпен индекс към колекция от 107 милиона статии в академични списания.[21][22]

Колекции от книги

редактиране
 
Служители сканират книги в централната сграда в Сан Франциско, 2011 г.
 
Машини на Internet Archive за сканиране на книги, 2012 г.

Брой текстове по езици

редактиране

Броят на всички текстове към 2 август 2021 г. е 32 144 440. Първите 100 категории за езици по брой текстове са:[23]

Езици Брой
текстове
1 Английски 24 273 219
2 Нидерландски 702 221
3 Френски 689 436
4 Немски 688 460
5 Арабски 461 483
6 Италиански 384 698
7 Испански 287 030
8 Гръцки 144 161
9 Китайски 141 668
10 Латински 133 710
11 Японски 130 926
12 Ръкописен
английски
92 763
13 Урду 91 094
14 Санскрит 86 582
15 Хинди 75 948
16 Руски 66 980
17 Португалски 63 315
18 Бенгалски 43 489
19 Телугу 41 883
20 Гуджарати 41 307
21 Украински 30 059
22 Тамилски 28 388
23 Персийски 23 007
24 Датски 21 269
25 Шведски 18 151
Езици Брой
текстове
26 Полски 18 051
27 Турски 17 244
28 Папиаменто 16 382
29 Тибетски 16 051
30 Идиш 15 343
31 Индонезийски 15 068
32 Малаялам 14 669
33 неопределен 13 957
34 Каннада 12 994
35 Унгарски 11 447
36 Румънски 11 175
37 Есперанто 9720
38 Хърватски 9646
39 Чешки 9402
40 Тайски 8007
41 Маратхийски 7534
42 неизвестен 7409
43 Каталонски 7284
44 Корейски 7254
45 Малайски 7049
46 Беларуски 6046
47 Норвежки 5666
48 Старогръцки 5297
49 Панджабски 5273
50 Староруски 5094
Езици Брой
текстове
51 Суахили 5085
52 Пиемонтски 4848
53 Иврит 4838
54 Фински 4641
55 Уелски 4471
56 Кюрдски 4443
57 Ръкописен японски 4097
58 Виетнамски 3935
59 много езици 3746
60 други 3213
61 Английски и френски 3067
62 Тагалог 3048
63 Исландски 2972
64 Африканс 2847
65 Сръбски 2844
66 Балийски 2778
67 Манипури 2762
68 Одия 2702
69 Османски турски 2538
70 Конкани 2446
71 Синдхи 2280
72 Бретонски 2272
73 Асамски 2258
74 Албански 2258
75 Галисийски 2064
Езици Брой
текстове
76 Арменски 2055
77 Баски 1928
78 Илокано 1914
79 Естонски 1909
80 Литовски 1788
81 Азербайджански 1750
82 Кхоса 1741
83 Словашки 1708
84 Новоарамейски 1691
85 Шотландски келтски 1639
86 Зулуски 1572
87 Ирландски 1570
88 Словенски 1537
89 Узбекски 1450
90 Пали 1347
91 Окситански 1192
92 Български 983
93 Шотландски германски 966
94 Кхаси 878
95 Енг – ръкописен 867
96 Сирийски 836
97 Бошняшки 832
98 Непалски 832
99 Норвежки – букмол 826
100 Пущунски 824

Брой текстове по десетилетия

редактиране
19 век
Десетилетия Брой текстове
(27 ноември 2015)
1800-те 39 842
1810-те 51 151
1820-те 79 476
1830-те 105 021
1840-те 127 649
1850-те 180 950
1860-те 210 574
1870-те 214 505
1880-те 285 984
1890-те 370 726
20 век
Десетилетия Брой текстове
(27 ноември 2015)
1900-те 504 000
1910-те 455 539
1920-те 185 876
1930-те 70 190
1940-те 85 062
1950-те 81 192
1960-те 125 977
1970-те 206 870
1980-те 181 129
1990-те 272 848
21 век
Десетилетия Брой текстове
(27 ноември 2015)
2000-те 579 905
2010-те 855 253
 

Open Library (в превод: Отворена библиотека) е проект на Internet Archive. Уикито се стреми да включи уеб страница за всяка книга, съдържа 25 милиона каталожни записа на издания. Също така се стреми да бъде достъпна в мрежата публична библиотека: съдържа пълните текстове на приблизително 1 600 000 книги в публично достояние (от повече от пет милиона от основната колекция текстове), както и книги в печат и авторски права,[24] които са напълно четими, с възможност за изтегляне[25] и с възможност за търсене в пълен текст; предлага двуседмичен заем на електронни книги в своята програма за кредитиране на Книги за заеми за над 647 784 книги, които не са публични домейн, в партньорство с над 1000 библиотеки от 6 държави[26] след безплатна регистрация в уеб сайта. Open Library е безплатен софтуерен проект с отворен код, чийто изходен код е свободно достъпен в GitHub.

Медийни колекции

редактиране

В допълнение към уеб архивите, Internet Archive поддържа обширни колекции от дигитални медии, които са удостоверени от потребителя, който ги е качил, за публично достояние в Съединените щати или са лицензирани под лиценз, който позволява преразпределение, като лицензи на Криейтив Комънс. Медиите са организирани в колекции по тип медия (движещи се изображения, аудио, текст и др.) И в раздели на колекции според различни критерии. Всяка от основните колекции включва раздела на колекция „Общност“ (по-рано наречена „Отворен код“), където се съхраняват общи публикации от обществеността.

Колекциите съдържат около 3000 предмета от Бруклинския музей.

Аудиоколекция

редактиране

Аудиоархивът включва музика, аудиокниги, новинарски предавания, радиопредавания от старо време и голямо разнообразие от други аудиофайлове. В колекцията има повече от 200 000 безплатни цифрови записа. Разделите колекции включват аудиокниги и поезия, подкасти и др. Звуковите колекции са куратори от Боб Джордж, директор на Архива на съвременната музика.[27]

Архивът на музика на живо включва повече от 170 000 записа на концерти от независими музиканти, както и по-утвърдени изпълнители и музикални състави с разрешителни правила за записване на техните концерти.[28]

Проектът „Великият 78“ има за цел да дигитализира 250 000 сингъла със 78 оборота в минута (500 000 песни) от периода между 1880 и 1960 г., дарени от различни колекционери и институции. Той е разработен в сътрудничество с Архива на съвременната музика и Джордж Блъд аудио, отговарящ за дигитализацията на аудио.[27]

Източници

редактиране
  1. archive.org // alexa.com. Архивиран от оригинала на 2020-05-18. Посетен на 31 май 2021. (на английски)
  2. Full text of 'Full Filing' for fiscal year ending Dec. 2018 // projects.propublica.org. Посетен на 21 септември 2020. (на английски)
  3. archive.org WHOIS, DNS, & Domain Info – DomainTools // WHOIS. Архивиран от оригинала на November 5, 2018. Посетен на March 13, 2016.
  4. Internet Archive: About the Archive // April 8, 2000. Архивиран от оригинала на April 8, 2000. Посетен на March 13, 2016.
  5. Donate to the Internet Archive! // archive.org. Посетен на 2019-11-25. (на английски)
  6. Who Owns History? // cabinetmagazine.org. Архивиран от оригинала на 2013-03-19. Посетен на 21 септември 2020. (на английски)
  7. Donations: donating to the Internet Archive // help.archive.org. Посетен на 21 септември 2020. (на английски)[неработеща препратка]
  8. The Internet Archive Fights Wiki Citation Wars With Books // gizmodo.com. Архивиран от оригинала на 2019-11-05. Посетен на 21 септември 2020. (на английски)
  9. Members // netpreserve.org. Архивиран от оригинала на 2010-06-13. Посетен на 21 септември 2020. (на английски)
  10. Internet Archive officially a library // archive.org. Посетен на 21 септември 2020. (на английски)
  11. Infoseek Guide – Wayback Machine // infoseek.com. Архивиран от оригинала на 1996-05-12. Посетен на 22 септември 2020. (на английски)
  12. A Library as Big as the World // www.businessweek.com. Архивиран от оригинала на 2002-06-01. Посетен на 22 септември 2020. (на английски)
  13. A fair history of the Web? Examining country balance in the Internet Archive // www.scit.wlv.ac.uk. Архивиран от оригинала на 2015-09-24. Посетен на 22 септември 2020. (на английски)
  14. а б Fixing Broken Links on the Internet // blog.archive.org. Архивиран от оригинала на 2014-11-07. Посетен на 22 септември 2020. (на английски)
  15. Web.archive.org directory // web.archive.org. Архивиран от оригинала на 2012-01-03. Посетен на 22 септември 2020. (на английски)
  16. Web Archiving Environmental Scan // nrs.harvard.edu. Посетен на 22 септември 2020. (на английски)
  17. About Archive-It // archive-it.org. Архивиран от оригинала на 2014-02-21. Посетен на 22 септември 2020. (на английски)
  18. The Internet Archive Will Digitize & Preserve Millions of Academic Articles with Its New Database, 'Internet Archive Scholar' // September 22, 2020. Архивиран от оригинала на September 22, 2020. Посетен на 2020-09-23.
  19. Bryan, Newbold. Search Scholarly Materials Preserved in the Internet Archive // 2021-03-09.
  20. Internet Archive Scholar [homepage] // Internet Archive. Посетен на 24 March 2022.
  21. Else, Holly. Giant, free index to world's research papers released online // Nature. 2021-10-26. DOI:10.1038/d41586-021-02895-8. Архивиран от оригинала на November 13, 2021.
  22. "The General Index": New tool allows you to search 107 million research papers for free // Архивиран от оригинала на November 12, 2021. Посетен на 2021-11-12.
  23. Internet Archive Search // archive.org. Посетен на 2 август 2021. (на английски)
  24. FAQ on Controlled Digital Lending (CDL) // nwu.org. Посетен на 21 септември 2020. (на английски)
  25. The Open Library Makes Its Online Debut // chronicle.com. Архивиран от оригинала на 2007-09-30. Посетен на 21 септември 2020. (на английски)
  26. In-Library eBook Lending Program Expands to 1,000 Libraries, 2011 // blog.archive.org. Архивиран от оригинала на 2014-08-13. Посетен на 21 септември 2020. (на английски)
  27. а б How The Great 78 Project is saving half a million songs from obscurity // thevinylfactory.com, 18 август 2017. Посетен на 31 май 2021. (на английски)
  28. Warren Zevon Live Shows Hit the Web, Possible Film in the Works // rollingstone.com, 3 юни 2009. Посетен на 31 май 2021. (на английски)

Външни препратки

редактиране