Богдан Діденко: «Україні потрібен власний ШІ ― і ми його створили!»

Наталія Павлишин, Центр комунікацій Львівської політехніки
Богдан Діденко

Нещодавно українська спільнота дослідників штучного інтелекту представила Lapa LLM ― найефективнішу українську велику мовну модель (LLM), узгоджену з національними цінностями. При її створенні 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. До цього амбітного проєкту, над яким понад рік працювали українські фахівці, доєднався і Богдан Діденко, аспірант кафедри Систем штучного інтелекту Інституту комп’ютерних наук та інформаційних технологій Львівської політехніки.

Модель названо на честь видатного кібернетика Валентина Лапи, який разом з Олексієм Івахненком створив метод групового урахування аргументів ― попередник сучасного Deep Learning.

Ідея Lapa LLM виникла як пряма відповідь на критичну потребу України в цифровому суверенітеті та безпеці.

Богдан Діденко пояснює цю необхідність:

― Ідея з’явилася всередині ком'юніті, як дослідження, що дасть можливість йти в ногу з часом, відповідаючи світовим трендам,  і фактично як відповідь на потребу, зважаючи на необхідність Україні мати деякий цифровий суверенітет. Адже є персональні дані клієнтів українських бізнесів, державного сектора, інформація, що стосується оборонного сектору, освіти та охорони здоров’я і, використовуючи китайські чи американські платформи, ми не можемо частину даних, які нам потрібні, обробляти, надсилати кудись на сервери.

Розробники виокремлюють три головні проблеми, які глобальні моделі створюють для українського інформаційного простору:

― Слід зазначити, що всі ці моделі, які вже існують, натреновані на загальних корпусах, тобто там використовують багато різних мов. Тож, українська мова не є центральною. У цих моделях переважають англійська, китайська, російська. Тому ті дані, на яких навчалися моделі, ми не контролюємо. Це призводить до того, що можуть бути маніпулятивні дані, російська пропаганда.

Ще одна проблема, на якій акцентував Богдан, ― токенізація.

― Оскільки моделі тренують на багатьох мовах, токенізатор ефективно стискає англійську чи китайську, але не українську. Тобто ефективність роботи нейромережі з українською мовою низька.

Команда Lapa LLM застосувала низку інноваційних кроків, щоб розв’язати ці проблеми:

― Наша ідея була в тому, щоб розробити модель, яка використовуватиме більше українських токенів. Ми зібрали статистику з українських текстів, створили токенізатор, у якому краще представлена українська мова (роботу над українськими токенізаторами Богдан Діденко провадив ще до приєднання до проєкту Lapa LLM). Потім ми використали  новий інноваційний (якщо не революційний) метод трансферу знань між моделями з різними токенізаторами, який винайшов українець Микола Гальтюк. Також ми хотіли мати нейромережу, яку самі контролюємо ― на яких даних вона навчалась. У нас був складний план очищення даних ― перевірка на маніпулятивний контент, пропаганду, оцінка освітньої цінності та граматичної якості. Окремий датасет ми створили для вирівнювання (alignment) ― щоб нейромережа дотримувалась проукраїнської позиції в етичних і світоглядних питаннях: війна, територіальна цілісність, історія. Сукупність усіх цих причин і призвела до потреби створювати власні мовні моделі. Так їх можна буде використовувати в державному секторі, під конкретні завдання, з прозорим розумінням того, на чому вони навчались. І експертиза залишатиметься в Україні, ― додав Богдан Діденко.

Lapa LLM є волонтерським проєктом, створеним на ентузіазмі та баченні Юри Паніва, який зібрав команду. Кілька десятків людей працювали над розробкою, консультуванням та датасетами. Проєкт отримав обчислювальні потужності (у вигляді кластера з потужними відеокартами H100) від французького стартапу у сфері оборони Comand.AI та підтримку від платформи HuggingFace.

Від ідеї ― до продукту ми працювали понад рік (Богдан Діденко доєднався до проєкту на початку літа). Активна розробка тривала близько пів року (доступ до обчислювальних потужностей отримали в червні-липні).

Зараз Богдан Діденко активно розвиває AI-спільноту, ведучи авторський блог де підсвічує важливі для  українського АІ теми, а також в межах своєї наукової роботи та Data Science Club у Львівській політехніці, де долучився до створення інфраструктури аналогічної до R&D Лабораторії, яка буде поєднувати в собі: сервіс для розміщення датасетів та моделей HuggingFace, провайдера обчислювальних потужностей Vast.ai та інтерфейс для взаємодії з сучасними Великими мовними моделями ― OpenRouter. Разом ці інструменти покривають значну кількість актуальних потреб, які можуть виникнути у дослідників штучного інтелекту

Наразі проєкт Lapa LLM є open-source, і розробники сподіваються на подальшу підтримку:

― Плануємо ще одну ітерацію, щоб удосконалити модель. Ми робимо все в опенсорс, тобто це буде доступно для всіх без обмежень. Ми сподіваємося, що наша розробка стане основою нових сервісів та інструментів, які будуть розвиватися вже незалежно від нас. Більшість ІТ-компаній працює на зовнішній ринок, але в Україні є потреба у власних продуктах. У нас є банки, держава (Міністерство цифрової трансформації України), освіта, маркетплейси ― всюди потрібна обробка української мови. Зараз ми маємо для цього все: дані, спеціалістів, інфраструктуру. Потрібно просто об’єднати зусилля, ― наголосив Богдан.

Окрім роботи над національною мовною моделлю, Богдан Діденко має глибокі наукові інтереси, зосереджені на одній із найбільш футуристичних сфер ― продовженні життя людини. Це є його основною темою дослідження в рамках аспірантури.

― Моя PhD-тема ― продовження життя людини. Це моя мрія. Дослідження поєднує біологію та штучний інтелект ― потрібно обробляти величезні масиви генетичних і білкових даних. Для реалізації цієї мети я активно співпрацюю із провідними українськими установами: з Інститутом геронтології в Києві та Київською школою економіки, де створюють лабораторію longevity.

Богдан Діденко підкреслює, що це дослідження має життєво важливе значення для України на державному рівні:

― Україні це потрібно ― у нас демографічна криза. Один зі шляхів ― щоб люди жили довше і залишались здоровими. Це вирішує соціальні, економічні та медичні проблеми.

За освітою Богдан Діденко ― вчитель інформатики, який починав як frontend-розробник (JavaScript), але завжди цікавився ідеєю продовження життя людини. Шлях до глибокого вивчення штучного інтелекту почався з практичної роботи:

― Працюю в українській продуктовій компанії, яка займається перевіркою граматики ― аналог Grammarly (Superhuman), але B2B-рішення (WebSpellChecker). Там і почав вивчати штучний інтелект. Пройшов курси, писав наукові статті (є дві публікації в Scopus, конференція ACL).

Завдяки такому широкому спектру зацікавлень у своїй діяльності Богдан Діденко поєднує інженерну експертизу, необхідну для створення LLM-моделей, із високотехнологічними науковими дослідженнями, спрямованими на розв'язання глобальних викликів, важливих для майбутнього нації.