Кой е Майкъл Джордан от компютърните науки? Новият инструмент класира влиянието на изследователите

Миналата есен, Алън институтът за изкуствен интелект в Сиатъл, Вашингтон, стартира предизвикателство пред Google Scholar, PubMed и други онлайн търсачки, като разкри услуга, наречена Semantic Scholar. Програмата, първоначално обучена на 2 милиона доклади от областта на компютърните науки, беше предназначена да осигури търсачка, задвижвана от изкуствен интелект (AI), за да разбере действително до ограничена степен съдържанието на публикувана литература, Корпусът му е нараснал до 4 милиона документи. И днес институтът добавя нова способност към Semantic Scholar с еднакво амбициозна цел: измерване на влиянието, което ученият или организацията оказва върху последващи изследвания.

Инструментът, който засега се фокусира само върху компютърните науки, но ще се разшири до невронауката до есента, а след това и до други предмети, може да класира документи, автори и институции по конкретна оценка на влиянието. Например, инструментът установява, че най-влиятелната компютърна наука се случва в Масачузетския технологичен институт в Кеймбридж. Няма изненада там. Но най-влиятелният компютърен учен? Това е Майкъл I. Джордан от Калифорнийския университет, Бъркли, пионер на AI, който малцина извън неговата област разпознават. "Той е известен като Майкъл Джордан от машинното обучение", отказва Орен Ециони, директор на базирания в Сиатъл Алън Институт, който създаде Semantic Scholar. (Щракнете тук за списък на първите 50 автори и тук за списък на топ 50 домейни.)

Ако външните хора намерят класирането на Semantic Scholar s за достоверни, неговият брой може да се използва от комисиите по наемане и наемане на работа. Това е, защото влиянието е трудно да се измери. Старият начин е да се броят цитати. Такива бройки са станали крайъгълен камък на метриките на академичната издателска индустрия, като Thomson Reuters, Elsevier и други продават достъп до библиографски бази данни, които дават възможност на потребителите да изпълняват числата.

Но не всички цитати са създадени еднакво, за пример, цитирането като вдъхновение за цяла книга е много по-различно от краткото споменаване в раздела за нейните методи. Така че суровият граф може да нарисува подвеждащ портрет на въздействие на учен. И изследователите се оплакват, че традиционните показатели, базирани на цитиране, са помогнали за създаването на „публикуване или загиване“ манталитет, притискайки ги да изплюят документи възможно най-бързо, независимо от важността на откритията, с надеждата да натрупат цитати.

Според някои е необходимо по-пряко измерване на действителното влияние на хартия върху бъдещите изследвания. Така екипът на Etzioni изгради нов инструмент в Semantic Scholar, който дава възможност за създаване на графика на влияние върху влиянието. Повечето документи в неговата база данни са в PDF формат, който е лесен за четене от човека, но просто изглежда като петна от неструктуриран текст към компютър. Четенето повече като човек изисква машинно обучение, техника, която помага на компютъра да прави точни предположения. Например, той трябва не само да открива различните раздели на въвеждането на хартия, методите, резултатите и това, но различава тона на цитирането на документи. Така екипът на Allen Institute използва машинно обучение, за да обучи статистически модел, който открива всички тези характеристики. Тогава компютърът непрекъснато усъвършенства своя модел, като сравнява своите предположения с тези на човешки експерти, които курират извадка от документите.

Засега системата измерва само „пряко влияние“ между документи, които се цитират помежду си, казва Etzioni, но бъдещите версии ще отчитат косвеното влияние на документите, които цитират документи, които от своя страна цитират други документи и т.н.

Тест драйв

Инструментът дебютира днес на www.semanticscholar.org. Науката помоли Джеф Клун, компютърен учен от Университета Вайоминг в Ларами, да го вземе за пробно шофиране.

Първото нещо, което Клун направи, беше да погледне собствения си квартал в графиката на влиянието. „Изключително забавно е“, казва той. „Виждам кои учени са повлияли най-много на моята собствена кариера, кои учени съм вдъхновил най-много и същото за всеки друг учен“. Повечето от резултатите бяха точно това, което Клун очакваше - менторите му повлияха върху него и той повлия на неговите аспиранти и постдокументи - но имаше някои изненади. Не беше запознат с името на някой, например, който правеше обширни последващи изследвания, вдъхновени от документите на Клун.

Но освен стойността за забавление, Clune смята, че инструментът може да има стойност в процеса на академично наемане и повишаване. Комисиите, които вземат тези решения, са подложени на натиск не просто да класират кандидатите по успеха на предишната работа, но да предскажат бъдещото въздействие на всеки кандидат. Семантичният учен се опитва да разкрие какво е „горещо“ в полето чрез измерване на „скоростта“ и „ускорението“ на телата на работа, измерване на това колко бързо другите цитират определена работа и дали това е тенденция. Комитетите на ведомствата „вече изчисляват това в движение“, казва Клун, така че тези числа ще се използват, прогнозира той.

Но този аспект също го тревожи. До известна степен Semantic Scholar е "черна кутия", казва Клун. "Ще разберат ли хората откъде идват числата?"

Etzioni признава мрачността на това как алгоритмите произвеждат резултатите. „Това винаги е компромис в машинното обучение“, казва той. „Едно нещо, което помага е, че можете да видите примери откъде идват числата, когато задържите курсора на мишката над числата.“

Междувременно Майкъл Джордан по машинно обучение заема най-високото си класиране, но отклонява кредита. „Въпреки митологиите, които исторически са били изградени около конкретни личности в науката и математиката, аз лично вярвам, че именно мрежите, към които принадлежат изследователите, са най-предсказващи за техния успех“, казва той. "Моята лична мрежа е пълна с страхотни хора, които са имали страхотни идеи."

Екипът на Etzioni сега поставя Semantic Scholar върху масивен корпус от изследователски трудове, фокусирани върху мозъка. Този инструмент и класацията за влияние за мозъчните изследователи ще дебютира на срещата на Обществото за невронауки в Сан Диего, Калифорния, на 12 ноември.