Науковці з Великої Британії створили інструмент на основі широкомовної моделі штучного інтелекту (LLM), здатний прогнозувати кристалічні структури неорганічних матеріалів. Хоча CrystaLLM не може прямо представляти тривимірні структури, його використання значно пришвидшує процес передбачення порівняно з традиційними методами. Ця технологія не вимагає поглибленого розуміння фізичних чи хімічних правил, що робить її універсальним інструментом для дослідження нових матеріалів.
CrystaLLM — це адаптація текстової моделі GPT-2 для передбачення кристалічних структур. Процес починається з конвертації даних із 2,2 мільйонів кристалографічних файлів (CIF) у числові токени. Ці токени представляють інформацію про розташування атомів у кристалі. Потім модель навчається прогнозувати, який токен буде наступним, поступово удосконалюючи свої параметри, що відображають силу зв’язків між «нейронами» системи.
У результаті навчання CrystaLLM здатна генерувати повні файли CIF, якщо їй надають кілька токенів, пов’язаних із хімічною формулою матеріалу. Це дозволяє швидко отримувати точні прогнози для широкого спектра матеріалів.
Порівняння CrystaLLM з іншими моделями
CrystaLLM є однією з кількох сучасних моделей для прогнозування кристалічних структур. Зокрема, вона конкурує з DiffCSP — інструментом на основі дифузійної моделі, яка працює подібно до генераторів зображень, як-от DALL-E. Обидві моделі показали схожі результати:
Правильно передбачили структури майже 19 000 матеріалів перовськіту після 20 спроб.
У складнішому наборі з 40 476 неорганічних матеріалів вони досягли успіху у третині випадків.
CrystaLLM має перевагу у швидкості роботи. Маленька версія моделі (25 мільйонів параметрів) може працювати навіть на звичайному ноутбуці, тоді як для навчання великої версії (200 мільйонів параметрів) потрібен графічний процесор.
Попри успішні результати, CrystaLLM потребує додаткового навчання для використання у конкретних завданнях, наприклад, для моделювання адсорбції молекул на каталітичних поверхнях. Це передбачає тонке налаштування моделі для точного прогнозування структур певних класів матеріалів.
Науковець Арон Уолш із Імперського коледжу Лондона називає CrystaLLM «глотком свіжого повітря у прогнозуванні кристалічних структур». Він зазначає, що те, на що раніше йшли місяці роботи, тепер можна здійснити за лічені секунди.
Розвиток CrystaLLM демонструє, як сучасні моделі штучного інтелекту можуть трансформувати підходи до прогнозування кристалічних структур. Хоча цей підхід не гарантує абсолютної точності, він значно скорочує час і ресурси, необхідні для відкриття нових матеріалів. У майбутньому такі інструменти, як CrystaLLM, можуть стати незамінними у хімічній та матеріалознавчій науці, розширюючи горизонти досліджень і прискорюючи інновації.