Притесненията за поверителност биха могли да провалят безпрецедентния план за използване на данни от Facebook за проучване на избори

Служителите във Facebook работят за намаляване на разпространението на дезинформация, която може да повлияе на изборите.

NOAH BERGER / AFP / Гети изображения

Притесненията за поверителност биха могли да провалят безпрецедентния план за използване на данни от Facebook за проучване на избори

От Джефри Мервис Сеп. 24, 2019 г., 16:50 ч

Гери Кинг се възползва от перфектното време в продажбата на Facebook с идеята да сподели съкровищницата на своите данни с учени. Но сега часовникът работи срещу усилията на Кинг и други да запазят иновативния проект - който има за цел да разбере по-добре как информацията, разпространена във Facebook, влияе на изборите и политическите институции по света - да не се разпадат. Ключовият момент: защита на поверителността на потребителите на Facebook.

През март 2018 г. Кинг, количествен социален учен от Харвардския университет, направи посещение в централата на Facebook в Менло Парк, Калифорния. Медиите току-що разбиха новината, че британска фирма, Cambridge Analytica, продава профили на избиратели на кандидати въз основа на лична информация, предоставена несъзнателно от милиони потребители на Facebook. Полученият скандал беше отрезвяващ урок за Facebook как да не споделя своите данни с външни лица.

Кинг предлагаше по-добър начин за Facebook да споделя данни. Планът му е създаден да отговаря на високите етични и интелектуални стандарти, като същевременно постига три важни цели: запазване на поверителността на потребителите на Facebook, защита на търговските тайни на компанията за това как се управляват нейните данни и не налага ограничения върху това, което изследователите могат да публикуват от данните.

Новият режим, смята Кинг, би могъл да трансформира количествената социална наука, като предостави на изследователите достъп до наистина големи данни, а не до проучванията и малките проби, които традиционно са били основната им диета. Той ще се сблъска и с голямо предизвикателство пред областта: Частните компании сега разполагат с много повече информация за това как се държат хората, отколкото правителствата. И изследователите се нуждаеха от по-добър достъп до тези данни.

Служители във Facebook слушаха учтиво терена на Кинг, но не даваха никакви обещания. Реши, че се е ударил.

Тогава той напомни наскоро: „Бях в хотелската си стая, опаковах се да се прибера вкъщи, когато получих имейл от хората, с които току-що се срещах.“ Той постави въпроса: „Какво можем да направим по този въпрос?“ до скандала Cambridge Analytica. Служители на компанията, които гледаха с ужас как цената на акциите на Facebook падна вследствие на разкритията, бяха ясно притеснени как скандалът може да навреди на репутацията на компанията.

Няколко дни по-късно Кинг получи телефонен разговор за последващи действия. „Ей, бихте ли могли да направите проучване на изборите през 2016 г. и да кажете на всички, че не сме променили резултата?“, Попита го служител на Facebook. „И ако сме направили нещо нередно, кажете ни какво да правим и веднага ще го направим.“ Кинг казва, че първата му реакция е била: „Предполагам, че загубата на 100 милиарда долара пазарна шапка фокусира ума.“

„Важен нов модел“

Призивът изпрати Кинг и Нейт Персили, професор по право в университета в Станфорд в Пало Алто, Калифорния, в по-голям план за техния план за отстояване на Social Science One, нестопанска организация, която ще бъде онлайн сайтът за изследователи за достъп до всякакви данни, които Facebook пусна, Първият му проект ще даде на изследователите да разгледат как 2 милиарда потребители на Facebook са споделили уебсайтове, обсъждащи президентските избори през 2016 г., както и демократичните институции по целия свят.

Наборите от данни ще съдържат уеб адресите или URL адресите, които потребителите на Facebook са споделяли публично, някои характеристики на тези URL адреси и обобщена информация за акционерите, включително тяхната възраст, пол, местоположение и политически нагласи. Той обеща да бъде златна мина за изследователи, които учат при какви условия и от кого, фалшивите новини се разпространяват по интернет.

На 9 април 2018 г. Елиът Шраге, старши изпълнителен директор във Facebook, обяви новата инициатива, която написа, че „ще помогне да се осигурят независими и достоверни проучвания за ролята на социалните медии при изборите.“ В свой блог Шрадж я нарече „важна нова модел за партньорства между индустрията и академичните среди. ”И макар да не споменава Cambridge Analytica, скандалът очевидно му е хрумвал. "Същите инструменти във Facebook, които помагат на политиците да се свържат със своите избиратели ... също могат да бъдат злоупотребявани с манипулиране и измама", пише той.

Фондациите се качват на борда

В съобщението за април 2018 г. бяха изброени и седем благотворителни организации, които ще финансират инициативата. Консорциумът беше сглобен от Лари Крамер, президент на фондация „Уилям и Флора Хюлет“, намираща се само на няколко мили от централата на Facebook в парка Менло. Наскоро фондацията разшири една голяма демократична инициатива, наречена Madison Initiative, която се фокусира върху изучаването на Конгреса, за да се обърне повече внимание на дигиталната дезинформация.

„Спомням си как нашият програмен ръководител трепереше от вълнение“, когато чу за новото партньорство, спомня си Крамер. „Току-що идентифицирахме липсата на достъп до данни като наш основен проблем за Медисънската инициатива и тогава, бум, тук идва тази съкровищница, която ще ни позволи да направим това, което смятаме, че трябва да се направи.“

Крамер успя да накара фондация „Алфред П. Слоун“, фондация „Лора и Джон Арнолд“, фондация „Чарлз Кох“, фондация „Джон С. и Джеймс Л. Найт“, фонд „Демокрация“ и мрежата на Омидяр. Всички споделят интерес към това как функционират демокрациите, казва той. Тяхното идеологическо разнообразие - Кох подкрепя няколко консервативни каузи, докато мрежата на Омидяр е откровено либерална - също беше важно.

„Съгласихме се, че ни е необходимо външно финансиране, за да направим тази работа“, спомня си Крамер. „Защото ако се финансира от Facebook, хората биха се доверили на резултатите. Ето как стоят нещата днес. ”Организациите се споразумяха да предоставят общо 11 милиона долара за 1-годишен пилотен проект, който ще се управлява от Социалния научно-изследователски съвет (SSRC), базирана в Ню Йорк нестопанска организация, която също ще управлява процеса на отпускане на безвъзмездни средства.

„Тази структура има смисъл и хората, които я управляват, бяха първокласни“, казва Крамер. „И това започна страхотно.“

През юли 2018 г. SSRC публикува покана за предложения и през април отпусна 50 000 долара безвъзмездни средства на всеки от дузина екипи учени. (Избрана е втора кохорта от 13 екипа, но все още не е обявена.) Първият кръг от проекти включва проучвания как активността във Facebook може да повлияе на гражданската ангажираност и последните избори в Тайван, Чили, Бразилия и Германия, както и как потребителите реагират по различен начин на масовите и подвеждащи онлайн източници на новини.

Побързайте и изчакайте

Но колкото и Креймър да се надяваше на уникалното сътрудничество между Facebook, Social Science One и финансиращите ще процъфтява, той смята, че е възможно грешка да се движи толкова бързо в самото начало. „Всичко това се разви много бързо“, казва той. Вече е ясно, казва той, че всички участващи подценяват времето, което ще отнеме, за да измислят приемлив начин за защита на поверителността на потребителите на Facebook. „Почти всички възникнали проблеми [около личния живот] се появиха, защото всъщност нямахме време да прекосим всички Ц и да поставим точка„ И “, както обикновено бихме правили“, казва Крамер.

Стипендианти като Джошуа Тъкър, професор по политология и наука за данни в Нюйоркския университет в Ню Йорк, са платили цена за тази бърза помощ. През януари неговият екип докладва за проучване, което установява, че възрастните хора споделят седем пъти повече дезинформация, отколкото хилядолетия. Резултатите предполагат, че дигиталната грамотност може да бъде важен фактор за това колко добре хората могат да определят истинността на това, което четат онлайн.

Но този проект разчита на традиционните проучвания с хора, които са се съгласили да споделят поведението си онлайн. И Тъкър искаше да отиде по-далеч, свързвайки публично достъпни данни, които е получил от Reddit и Twitter, с непубличните потребителски данни, предоставени от Facebook. Данните във Facebook, според него, биха позволили на екипа „да тества някои от нашите хипотези“ за това как новини, включително дезинформация, се разпространяват в различни платформи за социални медии.

Данните за споделените връзки се считат за ниско висящи плодове по отношение на защитата на поверителността, добавя той, тъй като съдържат само обобщена информация.

"Може да ви каже, че мъжете на възраст от 25 до 35 години, живеещи в щата Ню Йорк, споделят определена връзка 1000 пъти, докато жените от Северна Дакота над 65-годишна възраст споделят данните шест пъти", обяснява той за обещания набор от данни. „Но той няма да съдържа вашия идентификационен номер или хештег във Facebook, последван от куп неща за вас.“

За момента обаче Тъкър - който също ръководи един от четирите консултативни комитета, помогнали за разпространението на думата за Social Science One - не може да получи достъп до тези данни. Това е така, защото Facebook все още не е измислил как да осигури поверителност преди да пусне данните.

Предизвикателството за поверителност стана ясно почти веднага, твърдят служители на King и Facebook. По-конкретно, те осъзнаха традиционните техники за осигуряване на поверителност, базирани на анонимност, вече не са адекватни. Компютърните учени показаха, че могат да идентифицират лица, включени в анонимни набори от данни, като използват масивна изчислителна мощност за свързване на маскираните данни с друга лична информация, която вече е публично достъпна онлайн.

Имайки предвид такива възможности, експертите за поверителност казаха на Facebook, че „е нарязал данните твърде тънки по отношение на демографските групи и броя пъти [уеб адресите са споделени]“, обяснява един служител на Facebook. За да осигури поверителност, компанията би трябвало да добави толкова много статистически „шум“ към данните, че резултатите биха били твърде изкривени, за да бъдат полезни за изследователите, казва официалният представител.

Отговорът, който Facebook реши, беше да използва различна поверителност. Това е математически подход за добавяне на шум, който прави невъзможно за външен човек да разбере дали личната информация на дадено лице се съдържа в определен набор от данни и по този начин гарантира тяхната поверителност. На оперативно ниво, обясни служителят на Facebook, това означава, че „имаме нужда от нов набор от компютърни сървъри, с нови видове сигурност и с различна поверителност, приложени към наборите от данни“.

Но постигането на тази цел изисква време. „Диференциалното уединение е най-модерната технология“, казва Кинг. „Това е много важна разработка, но не е като наличен софтуер, който абсолютно работи и който е адаптиран към всички статистически методи. Така разбрахме, че имаме година или повече работа, която не бяхме планирали. “

„Запомнете, това е изследване“, добавя Кинг. "Ако беше лесно, просто щеше да се нарече търсене."

Тъкър казва, че сътрудниците са знаели, че влизат в "доста неизследвани води", когато сключването на сделка във Facebook. „Първоначалният план беше да се даде възможност на изследователите да работят върху обобщените данни и след това да се справят с по-късния въпрос за диференциалната поверителност“, казва той. "Но това стана несъстоятелно."

Търсенето на различна поверителност дойде „с разходи за забавяне на достъпността на данните“, казва той. Но това „в замяна на математическото осигуряване на личния живот“, добавя той, е цена, която е готов да плати.

"Революция" в задържане

В края на миналия месец финансиращият консорциум и SSRC решиха, че часовникът изтече. В отворено писмо до SSRC финансиращите написаха, че „препоръчват да спрете процеса на отпускане на безвъзмездни средства, освен ако и докато не станат достъпни повече данни. … Някои или всички от нас може да са готови да обмислят разширяване или възобновяване на поддръжката, ако станат достъпни нови данни с достатъчен внос и стойност. “

Едновременно с това, SSRC издаде изявление, съвпадащо с тази препоръка и описвайки как „ще приключи проекта до края на 2019 г.“ Изследователите, които вече са финансирани, ще получат да запазят безвъзмездните си средства, а тези във втория кръг ще бъдат финансирани, ако успеят да завършат проект „с наличните понастоящем данни.“

Някои медийни съобщения за тези съобщения отлагат забавянето като друг пример за това, че Facebook се връща отново с обещание. Служители на Facebook отхвърлят тази оценка, заявявайки, че компанията изяснява от самото начало, че поверителността е най-голямото внимание.

Тъкър, Крамер и Кинг твърдят, че вярват, че Facebook прави всичко възможно, за да проправи път за достъп на изследователите. "Не мисля, че те се забавят", казва Тъкър. „Всички искат това изследване да се направи. Но това е много сложно. "

Крамер казва, че не защитава действията на Facebook. "Не ме интересува дали [забавянето] помага или вреди на компанията", казва той. Но той смята, че Facebook заслужава известна заслуга за опитите.

Как всичко се оказва, може да повлияе дали други цифрови гиганти, като Google, също се присъединяват към подобни усилия за обмен на данни. "Когато започнахме", каза Крамер, "се надявахме да го направим с Facebook и след това да поканим други компании за социални медии, които седят на подобни данни, да се присъединят и да ни помогнат да получим цялостен поглед. Но нито един от тях не прояви интерес.

Служител на Google потвърждава, че компанията е отказала да участва, когато се обърна към нея със Social Science One. „Решихме да изчакаме и да видим какво ще се случи с Facebook“, казва Клемент Волф, водещ световна публична политика в Сан Франциско, Калифорния, за гиганта на социалните медии. "И ние сме много заинтересовани от това как се играе."

„Ако Facebook успее“, казва Тъкър, „това би могло да доведе до революция на видовете онлайн данни, до които изследователите могат да получат достъп, и въпросите, които могат да задават хората, които не са служители на тази платформа. Служителите във Facebook могат да направят това сега, но ние не можем. “

Около две дузини служители във Фейсбук прекараха миналата година, чипирайки проблема и постигнаха значителен напредък. Миналата седмица например Facebook предостави различно защитени данни за около 32 милиона адреса на уебсайтове, които потребителите на Facebook споделяха публично повече от 100 пъти през последните 2 години. Данните включват информация дали адресът е отчетен като съдържащ фалшиви новини, спам или реч на омраза и колко пъти е споделен, без да е щракнат върху него.

Това издание е добре за проекта, казва Кинг, който вижда спирането на финансирането само като удар в пътя към повече сътрудничество между големите интернет компании и учени. Data презарежда поле, той казва. И социалната наука има много повече данни от всякога. Но повечето от данните са вътре в компаниите и те ги използват за собствени нужди. Така че ние като учени нямаме друг избор освен да сключим някакво споразумение с частната индустрия.

* Поправка, 25 септември, 10:25 ч .: Тази история е актуализирана, за да коригира името на Съвета за научни изследвания в областта на социалните науки.