Карыстанне Internet Archive ад Wayback Machine. Парады для вашага наступнага расследавання

Гэты тэкст для Глабальнай сеткі журналістаў-расследавальнікаў напісаў Марк Грэхэм, які кіруе праектам Wayback Machine больш за пяць гадоў. Да гэтага ён быў віцэ-прэзідэнтам NBC News Digital. Грэхэм дапамагаў запусціць першую службу электроннай пошты між ЗША і Савецкім Саюзам; запусціў праект першага вэб-інтэрфейсу анлайн-форума; дапамог запусціць iVillage, адзін з першых анлайн-сэрвісаў для жанчын.

Карыстанне Internet Archive ад Wayback Machine. Парады для вашага наступнага расследавання
Ілюстрацыя: Прэс-клуб Беларусь
Матэрыял створаны і перакладзены на беларускую мову Глабальнай сеткай журналістаў-расследавальнікаў у партнёрстве з Прэс-клубам Беларусь пры фінансавай падтрымцы Еўрапейскага Звязу.

Сцісла

  • Aрхівацыя адрасоў URL
  • Як параўноўваць змены ў розных версіях
  • Пашыраны пошук па архіву
  • Выкарыстанне інтэрфейсаў API з Wayback Machine
  • Даданне кантэксту да архіваваных старонак
  • Дадаткі для браўзераў
  • Але пачакайце! Ёсць яшчэ нешта …

Сайт Internet Archive — гэта некамерцыйная бібліятэка, якая займаецца прасоўваннем «ўсеагульнага доступу да ўсіх ведаў» і адзначае сёлета 25-годдзе. Сайт вядомы дзякуючы свайму сэрвісу Wayback Machine, якім я зараз кірую, і які захоўвае архіў амаль усяго публічна даступнага сеціва з хуткасцю больш за 1 мільярд архіваваных адрасоў URL у дзень.

Штодзень журналісты, даследчыкі, фактчэкеры, актывісты і шырокая грамадскасць бясплатна карыстаюцца сэрвісам Wayback Machine. Пра нас ці са спасылкай на нас было напісана некалькі тысяч артыкулаў. Нават некалькі вядучых журналістаў-расследавальнікаў у выніковай публікацыі GIJN «Мае ўлюбёныя інструменты» за 2020 год адзначылі сэрвіс як адзін з асноўных інструментаў, якімі яны карыстаюцца ў сваёй працы.

Ніжэй – агляд і  інструкцыі для працы з Wayback Machine для журналістаў, якія хацелі б карыстацца сэрвісам падчас свайго наступнага расследавання.

Aрхівацыя адрасоў URL

Калі вы публікуеце артыкул, дзе ёсць спасылка на іншы сайт, але ягоныя ўладальнікі выдалілі асноўную старонку або сам сайт, то дадзеныя зніклі б беззваротна, калі б ніхто іх не заархіваваў. Няхай з вамі такога не здараецца!

Штодня дзесяткі мільёнаў URL-адрасоў архівуюцца карыстальнікамі з дапамогай функцыі «Save page now» (Захаваць старонку зараз). Кожны чалавек можа ўвесці URL-адрас, які трэба заархіваваць. А калі вы залагінены з бясплатнага ўліковага запісу, то можна папрасіць заархіваваць і «outlinks» — знешнія спасылкі з пачатковай старонкі. Вам на пошту прыйдзе справаздача аб працэсе архівацыі.

Яшчэ адна карысная функцыя Wayback Machine заключаецца ў тым, што вы можаце спампоўваць захаваныя URL-адрасы ў фармаце WACZ і праглядаць ці апрацоўваць іх з дапамогай сваіх інструментаў.

Функцыя «Save page now» («Захаваць старонку зараз») дазваляе аўтаматычна архіваваць вялікі аб’ём інфармацыі з Twitter. Напрыклад, вы можаце захаваць у архіве да 3200 апошніх твітаў з любога акаўнта. Для гэтага трэба скапіяваць і ўставіць у апаведнае поле URL-адрас, а пасля абраць адпаведную опцыю.

Крыху тэхнічных дэталяў: калі ў вас ёсць спіс URL-адрасоў, якія вы хочаце заархіваваць, дадайце іх у «слупок A» Google-табліцы. Пазначце потым спасылку на гэтую табліцу перад тым як націснуць на функцыю «Захаваць старонку зараз». У слупках B, C і D гэтай Google-табліцы з’явяцца код стану, URL-адрас архіва і адмысловая пазнака, калі лінк быў раней заархіваваны Wayback Machine.

Яшчэ адзін спосаб заархіваваць старонку — гэта адправіць URL-адрас па электроннай пошце на адрас «spn@archive.org», і, калі вы дадасце ў радок тэмы «capture outlinks» (захоп спасылак), то таксама будуць захаваныя зыходныя спасылкі з гэтай старонкі. Зноў жа, вы атрымаеце справаздачу на электронную пошту, калі працэс будзе завершаны.

Нарэшце, для больш тэхнічна прасунутых журналістаў, Wayback Machine прапануе праграмны інтэрфейс API, які дазваляе інтэграваць сэрвіс у існуючыя працоўныя працэсы праграмнага забеспячэння, альбо пры стварэнні новых аплікацый, каб дапамагчы аўтаматызаваць вашу працу. Прыкладам можа быць тэхналагічная некамерцыйная арганізацыя з Сан-Францыска Meedan, якая стварае праграмнае забеспячэнне для падтрымкі глабальнай журналістыкі. Яны інтэгравалі свой сэрвіс «Check» з Wayback Machine.

Як параўноўваць змены ў розных версіях

Бывае так, што хочацца знайсці і паказаць розніцу паміж дзвюма версіямі адной і той жа вэб-старонкі — магчыма, каб паказаць, як кампанія або чалавек змянілі свой сайт ці выправілі фармулёўкі на сваёй старонцы. Гэта можна зрабіць з дапамогай функцыі «Changes» (Змены).

Для гэтага ўвядзіце любы заархіваваны URL-адрас у поле пошуку на галоўнай старонцы Wayback Machine. Затым абярыце опцыю «Changes».

Вам будзе паказаны спіс архіўных версій з рознымі датамі. Гэтыя змены пазначаныя адпаведным колерам па ступені значнасці змяненняў.

Пасля абярыце любыя дзве версіі URL-адраса з пазнакай часу зменаў — яны будуць адлюстроўвацца побач, а тэкставыя адрозненні будуць вылучаныя сінім і жоўтым колерамі. Менавіта з дапамогай такой функцыі было паказана, як брытанскі блогер і палітычны дарадца спрабаваў перапісаць гісторыю. Змены ў ягоным блогу паказаныя на скрыншоце ніжэй.

Функцыя «Changes» ад Wayback Machine паказала, як былы галоўны дарадца брытанскага прэм’ер-міністра Дамінік Камінгс спрабаваў незаўважна дадаць тэкст (сінім, справа) у свой першапачатковы пост у блогу (злева).

Пашыраны пошук па архіву

Абярыце функцыю «URLs», каб знайсці суб-URL-адрасы любой старонкі, выкарыстоўваючы ключавыя словы або MIME-тыпы (пашырэнні) файлаў (напрыклад, png, jpg і г.д.). Вы можаце лёгка фільтраваць і сартаваць вынікі, каб знайсці цікавыя вам архівы.

Нашыя інжэнеры праіндэксавалі некаторыя файлы і калекцыі, і цяпер Wayback Machine прапануе поўны інтэрфейс тэкставага пошуку.  Унізе галоўнай старонкі Wayback Machine ёсць раздзел «Collection Search» (Пошук па калекцыях). Там захаваныя зніклыя з інтэрнэту старонкі, напрыклад poetry.com, сайты расейскіх незалежных СМІ і калекцыя з 749 мільёнаў PDF-файлаў. На галоўнай старонцы Internet Archive можна таксама даведацца, як працаваць з калекцыямі. Калі вы хочаце, каб мы праіндэксавалі канкрэтныя калекцыі архіўных матэрыялаў (напрыклад, у адпаведнасці з рознымі шаблонамі URL-адрасоў), калі ласка, звяжыцеся з намі па адрасе info@archive.org.

Выкарыстанне інтэрфейсаў API з Wayback Machine

У дадатак да API для архівавання праз сэрвіс «Захаваць старонку цяпер», ёсць таксама іншыя інтэрфейсы API, якія можна выкарыстоўваць для запыту ў Wayback Machine, каб даведацца, ці былі заархіваваны пэўныя URL-адрасы. Вы можаце прачытаць больш дэталёва пра іх тут.

Wayback, як і большасць сэрвісаў, не абмяжоўвае частату выкарыстання сваіх API. Тым не менш, доступ можа быць часам абмежаваны. Калі вы сутыкнуліся з якімі-небудзь праблемамі, звязанымі з выкарыстаннем Wayback Machine, адпраўце нам электронны ліст або паведамленне ў прыват у Twitter. Падтрымка журналістаў з’яўляецца нашым галоўным прыярытэтам.

Даданне кантэксту да архіваваных старонак

Мы разумеем, што для поўнага разумення любога архіву неабходна веданне кантэксту і паходжання інфармацыі. Таму мы пачалі дадаваць кантэкстныя банеры, каб дапамагчы наведвальнікам лепш арыентавацца ў нашых архіўных рэсурсах. Гэтыя тыпы банераў могуць быць выкарыстаныя, калі вэб-старонка з архіва была выдалена або калі пра старонку напісала вядомая даследчая арганізацыя.

Wayback Machine выкарыстоўвае жоўтыя загалоўкі, якія спасылаюцца на знешняе выкарыстанне архіўных старонак, а таксама мае ўкладку «About this capture» (Пра гэты запіс), якая змяшчае гісторыю старонкі.

У старонцы бывае складана разабрацца без разумення паходжання URL-адрасоў на ёй. Напрыклад, ці былі пэўныя выявы на старонцы даданыя ў той жа час, што і іншыя элементы на старонцы? Вы можаце ўбачыць гэтую інфармацыю, націснуўшы на спасылку «About this capture» (Пра гэты запіс) у правым верхнім куце кожнай архіўнай старонкі.

Шмат увагі, якую мы надаем цэласнасці нашых архіваў і празрыстасць паходжання ўсіх матэрыялаў, што мы збіраем шмат гадоў – спрыялі існуючаму даверу людзей да Wayback Machine. А доказы, захаваныя на Wayback Machine, прымаюцца многімі судамі па ўсім свеце.

Калі вы хочаце, каб мы разгледзелі пытанне аб даданні кантэксту ў архівы, якія вы стварылі з дапамогай нашай функцыі «Save Page Now», калі ласка, звяжыцеся з намі.

Дадаткі для браўзераў

Як вы маглі ўжо здагадацца, у нас ёсць пашырэнні для браўзераў: Safari, Firefox, і Chrome, а таксама мабільныя аплікацыі для iOS і Android.  Асабліва адзначым нашае супрацоўніцтва з пошукавай сістэмай Brave, каб стварыць уласную сістэму выяўлення памылкі 404 (і іншых) наўпрост у браўзеры для больш зручнай навігацыі ў Wayback Machine.

Ведайце, што служба падтрымкі Internet Archive  і Wayback Machine заўсёды дасяжная па электроннай пошце або праз прыватныя паведамленні ў Twitter. Дасылайце нам вашыя пытанні, запыты, справаздачы аб памылках і гісторыі поспеху. Асабліва мы хочам пачуць, што вам не падабаецца ў нашым сэрвісе, якія функцыі, на вашу думку, варта палепшыць або дадаць. Гэтак мы зможам працаваць над тым, каб лепш падтрымліваць патрэбы і пажаданні журналістаў.

Але пачакайце! Ёсць яшчэ нешта …

Акрамя архівавання большай часткі агульнадаступнага сеціва, Internet Archive захоўвае і робіць даступнымі іншыя калекцыі матэрыялаў, у іх ліку — больш за 25 мільёнаў навуковых прац у адкрытым доступе праз наш сэрвіс Internet Archive Scholar; амаль 30 мільёнаў электронных кніг і тэкстаў, якія можна праглядаць, пазычаць або спампоўваць; і мільёны гадзін заархіваваных тэлевізійных навін (дзесяткі тэлеканалаў за апошнія амаль 10 гадоў), — даступныя для тэкставага пошуку па ключавых словах з субтытраў.

Каб заставацца ў курсе праектаў Internet Archive і Wayback Machine, падпісвайцеся на нашыя акаўнты ў Twitter @internetarchive і @waybackmachine і чытайце інашыя пасты ў блогу.

Падзяліцца:

Матэрыял створаны і перакладзены на беларускую мову Глабальнай сеткай журналістаў-расследавальнікаў у партнёрстве з Прэс-клубам Беларусь пры фінансавай падтрымцы Еўрапейскага Звязу.

13 ліпеня 2023 года
Перадрук матэрыялаў press-club.pro магчымы толькі з дазволу рэдакцыі. Падрабязней...
Press Club BelarusМедыякухняКарыстанне Internet Archive ад Wayback Machine. Парады для вашага наступнага расследавання

Падпішыся на нашу медыйную рассылку!

Кожны тыдзень атрымлівай на пошту: якасныя магчымасці (гранты, вакансіі, конкурсы, стыпендыі), анонсы івэнтаў (лекцыі, дыскусіі, прэзентацыі, прэс-канферэнцыі) і карысны кантэнт

Падпісваючыся на рассылку, вы згаджаецеся з Палітыкай канфідэнцыйнасці
Мы выкарыстоўваем файлы cookies. Правілы канфідэнцыйнасці
Прыняць