DeepMind на Google аса сгъва протеини

Комплекс от заразени с бактерии вирусни протеини, моделирани в CASP 13. Комплексът съдържа четири отделни субединици, които са моделирани индивидуално.

Protein Data Bank

DeepMind на Google аса сгъва протеини

От Робърт Ф. ServiceDec. 6, 2018 г., 12:05 ч

Оказва се овладяване на шах и Go беше само за начало. На 2 декември притежаваната от Google фирма за изкуствен интелект DeepMind взе най-добрите отличия в 13-тата критична оценка на прогнозата за структурата (CASP), двугодишна конкуренция, насочена към прогнозиране на 3D структурата на протеините.

Конкурсът работи така: Състезателните екипи получиха линейната последователност на аминокиселини за 90 протеина, за които 3D формата е известна, но все още не е публикувана. След това екипите изчисляват как ще се сгънат тези последователности. Въпреки че базираната в Лондон DeepMind не се беше присъединила преди това към конкуренцията, прогнозите на нейния софтуер AlphaFold бяха средно по-точни от тези на 97-те му конкуренти.

Колко близо беше състезанието? По един показател, не много. За протеиновите последователности, за които не е известна друга информация - 43 от 90-те, AlphaFold направи най-точната прогноза 25 пъти. Това далеч изпревари втория финишир, който спечели три от 43-те теста.

Значи AlphaFold изостава от конкуренцията? Е, не точно. Когато проследявате колко печели или губи AlphaFold във всеки отделен случай, резултатите изглеждат много по-близки. Това е показано на графиката по-долу. Показва ефективността на AlphaFold по вертикалната ос и тази от най-добрата друга група на хоризонталната ос. Точките над червената линия показват прогнози, където AlphaFold спечели. Точки по-долу, тя загуби. А тези на червената линия по същество бяха вратовръзка. Резултатът? AlphaFold спечели много кръгове, със среден запас от 15% подобрение на точността в сравнение с други групи в най-трудните 43 теста, казва Джон Моулт, водещ организатор на CASP и изчислителен биолог в Университета на Мериленд в Роквил.

Готов, заложен, сгънете!

Точките над червената линия показват прогнози за сгъване на протеини, където AlphaFold спечели. Загуби тези под линията. Тези по линията по същество бяха равенство.

0 25 50 75 100 Други топ конкуренти 0 25 50 75 100 DeepMind's AlphaFold 0 25 50 75 Данни: abcdefg hijkl mnop qrstu vwxyz 1234 56789 / Science Данни: Андрий Криштафович, UC Дейвис Данни: abcdefg hijkl mnop qzstu vwxy 1234 56789
Андрий Криштафович / Калифорнийския университет, Дейвис

И така, какво ставаше? Дейвид Бейкър, организатор, участник и експерт по изчислително моделиране в Университета на Вашингтон в Сиатъл, отбелязва, че учените от DeepMind са изградили две стратегии за алгоритми, въведени от други. Първо, сравнявайки огромно количество геномни данни за други протеини, AlphaFold успя да дешифрира по-добре кои двойки аминокиселини най-вероятно се навиват близо една до друга в сгънати протеини. Второ, свързаните сравнения също им помогнаха да преценят най-вероятното разстояние между съседни двойки аминокиселини и ъглите, под които се свързват със своите съседи. И двата подхода се справят по-добре с повече данни, които оценяват, което ги прави по-удачни да се възползват от компютърните алгоритми за машинно обучение, като AlphaFold, които решават проблеми, като стискат големи масиви от данни. Учените от DeepMind „са изключително добри в машинното обучение и имат превъзходен екип“ с по-дълбоки джобове от повечето академични групи, казва Бейкър.

Все пак не е лошо за новак. „Дайте им кредит“, добавя Джон Моулт, друг организатор на CASP и изчислителен биолог в Университета на Мериленд в Роквил. "Те дойдоха от нищото."