1 грудня 2025   15:19   222

Українську мовну модель тренуватимуть на ШІ від Google, ‒ Мінцифри

Українську мовну модель тренуватимуть на ШІ від Google, ‒ Мінцифри - новини України
Міністерство цифрової трансформації України та "Київстар" планують навчати українську велику мовну модель на основі штучного інтелекту Gemma від Google.

Про це повідомляє пресслужба Мінцифри.

"Ми будуємо українську LLM на базі загальнодоступної open-source-моделі. Головне завдання в розробці ‒ попередньо навчити її на наших унікальних даних. При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM", ‒ пояснили у відомстві.

Зокрема передбачено:

  • вдосконалення українського токенайзера для покращення роботи моделі з українською, зменшення помилок при створенні текстів та оптимізації обчислювальних ресурсів;
  • донавчання моделі на унікальних українських текстах, які зараз збирають експерти;
  • створення бенчмарків (тестів) для точнішого налаштування моделі для подальшого використання.
Ключові переваги Gemma:

  • Оптимальний баланс продуктивності та ресурсів — висока якість при помірних інфраструктурних вимогах; одна з найкращих відкритих моделей за співвідношенням розмір/якість.
  • Багатомовна підтримка ‒ українська вже включена в модель, легко адаптується через донавчання.
  • Мультимодальність ‒ обробка та аналіз не лише тексту, а й зображень.
  • Розширений токенайзер ‒ точна та ефективна обробка текстів, довге контекстне вікно (128 тис. токенів).
  • Гнучкі розміри моделі ‒ дозволяють обирати оптимальний варіант під конкретну задачу.
  • Успішний досвід ‒ використання Gemma для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.
Цензор.Нет
💬 Поділіться думкою!
Додати коментар

Якщо ви хочете залишити коментар, прохання:

Увійти через Google або авторизуватися / зареєструватися через форум.

Останні новини: