Подход может ускорить открытие новых лекарств, гербицидов и других важных соединений.
Искусственный интеллект (ИИ) уже произвел революцию в изучении белков, предсказав, что они имеют трехмерные структуры, которые являются ключом к их функции. Теперь ИИ начинают использовать для изучения гораздо меньших молекул: лекарств, гербицидов и катализаторов, лежащих в основе медицины, сельского хозяйства и промышленной химии.
В журнале Science исследователи сообщают, что новый инструмент ИИ может определять структуру малых молекул даже с разрозненными данными. Он способен расшифровывать закономерности в массивах данных, которые ранее были отброшены как недостаточно хорошие. Такой подход может облегчить химикам изучение множества соединений, имеющих решающее значение для современной жизни.
«Это кардинально меняет ситуацию», — говорит Хорст Пушманн, специалист по кристаллографии малых молекул из Даремского университета.
Недавний прогресс ИИ в прогнозировании структур белков во многом обусловлен доступностью обширных наборов обучающих данных. Ученые знают последовательности ДНК генов, кодирующих белки, и для многих из них — точную трехмерную структуру. С двумя наборами данных исследователи могут обучить ИИ точно предсказывать неизвестную трехмерную форму нового белка, основываясь только на его последовательности ДНК.
Но работа с малыми молекулами представляет собой более сложную задачу, говорит Андерс Мэдсен, специалист по кристаллографии малых молекул Копенгагенского университета. Хотя исследователи способны вычислять базовые трехмерные структуры только из их химических формул, часто бывает невозможно определить точную структуру, поскольку многие небольшие вариации одинаково правдоподобны.
Чтобы узнать реальные структуры, исследователи обычно обращаются к рентгеновской кристаллографии. Они начинают с преобразования очищенной партии небольшой молекулы в твердый кристалл, где все копии выстраиваются в повторяющийся узор. Затем на кристалл направляют пучок рентгеновских лучей. Электроны, окружающие атомы молекулы, отклоняют рентгеновские лучи, создавая «дифракционную картину», регистрируемую детекторами. Анализируя эти картины, исследователи могут картировать группировки электронов и выяснять расположение атомов.
Получение хорошей структуры также требует знания «фазы» бомбардирующих рентгеновских лучей, свойства их длины волны и пути через кристалл. Хотя детекторы могут измерять интенсивность рентгеновских лучей — по сути, количество фотонов в каждой точке, — они не способны измерить их фазу. Исследователи должны делать обоснованные предположения, чтобы проверить наиболее вероятные значения фазы и подтвердить те, которые точнее всего соответствуют данным. Но слишком часто ученые получают плохие кристаллы, которые генерируют нечеткие дифракционные картины, что делает невозможным определение фазы. «Вы добавляете мусор, вы получаете мусор», — говорит Эндрю Бонд, специалист по кристаллографии малых молекул Кембриджского университета.
Однако ИИ часто способен видеть закономерности в нечетких данных, которые невидимы для исследователей. А. Мэдсен и его коллеги решили проверить, так ли это в данном случае. Они стали работать как бы в обратном направлении, используя компьютерную модель для создания миллионов выдуманных структур малых молекул и вычисления нечетких дифракционных картин, которые могли бы дать плохие кристаллы. ИИ начал со случайных значений фаз и повторял их до тех пор, пока не остановился на фазах, которые в сочетании с нечеткими данными интенсивности показывали правильную структуру.
На тот момент у исследователей были входы (информация об интенсивности и фазе) и выходы (3D-структуры) для миллионов гипотетических молекул. Они использовали это, чтобы обучить ИИ искать закономерности, связывающие данные об интенсивности с информацией о фазе, которые вместе давали бы им правильные структуры.
Далее ученым нужно было проверить, может ли обученный ИИ предсказать структуру реальных молекул, раньше им не виденных. Они обнаружили, что он способен точно определить известные структуры для каждой из почти 2400 малых молекул, которые они протестировали, применяя лишь 10% данных, необходимых для традиционных рентгеновских методов. «Это похоже на магию в каком-то смысле», — говорит Х. Пушманн.
На данный момент эта техника работает только с молекулами, содержащими до 50 атомов. А. Мэдсен собирается продолжить совершенствовать ИИ в надежде, что он сможет работать с более крупными молекулами, тем самым сделав его более универсальным инструментом.
Э. Бонд предвидит, что подобные ИИ будут обучаться с помощью наборов данных, полученных при использовании других технологий, таких как дифракция электронного пучка, которая не требует подготовки кристаллов. Но на данный момент, говорит он, «это действительно хороший первый шаг».