http://www.w3.org/1999/xlink http://www.w3.org/1999/xlink

Статус проекта: на независимой экспертизе

Инструменты искусственного интеллекта для сохранения и развития языков народов Сибири

  • Конкурс Региональный конкурс по сохранению национальной самобытности Иркутской области, гармонизации межэтнических и межрелигиозных отношений в 2024 году
  • Грантовое направление Сохранение национальной самобытности
  • Номер заявки Р38-24-2-000064
  • Дата подачи 02.04.2024
  • Запрашиваемая сумма 446 547,00
  • Cофинансирование 436 105,00
  • Общая сумма расходов на реализацию проекта  882 652,00
  • Сроки реализации 01.08.2024 - 31.03.2025
  • Организация ЧАСТНОЕ УЧРЕЖДЕНИЕ КУЛЬТУРЫ "ЕВРАЗИЙСКИЕ КОММУНИКАЦИИ.БАЙКАЛ"
  • ИНН 3808045304
  • ОГРН 1033801030680

Краткое описание

1) Проектируем и начинаем наполнять базы знаний для дообучения систем искусственного интеллекта (ИИ) языкам коренных народов Прибайкалья (на первом этапе - бурятскому). 2) Дополняем базы знаний видеозаписями образцов устного творчества (песенный, стихотворный, церемониальный материал)
Системы искусственного интеллекта работают на основе заложенных в них баз знаний (датасетов). Такие базы знаний содержат структурированную информацию, покрывающую некоторую область знаний, для использования кибернетическим устройством (или человеком) с конкретной целью. Полноценные базы знаний содержат в себе не только фактические данные, но и правила вывода (модели). На основе датасетов и модели рассуждений система искусственного интеллекта сама программирует свою работу при решении поставленных задач.
Национальные языки в компьютерной лингвистике называют малоресурсными — под «ресурсом» здесь имеются в виду именно тексты в цифровой форме, пригодные для обучения. Мы хотели бы спроектировать и начать наполнять базы знаний предназначенные впоследствии для обработки запросов на бурятском языке, ответов на нем же в контексте истории, национальных и культурных традиций этого народа.
Загрузив такую базу знаний в актуальные языковые модели, и таким образом дообучив ее, можно настроить для решения образовательных или иных задач, связанных с использованием бурятского языка. Фактический материал для наполнения мы рассчитываем получать, используя в частности ресурсы Центра коренных народов Прибайкалья. Работу по выбору и разметке данных мы планируем проводить в том числе с участием волонтеров-практикантов, например из ИФИЯМ ИГУ.
После консультаций с представителям РГБ были определены первые шаги по инициации такой работы. 1) Определение массивов данных на бурятском языке имеющих параллельные переводы на русском (переводы Абай гэсэра, бурятских сказок). 2) Загрузка текстов в актуальные приложения по работе с базами знаний 3) Разметка данных силами специалистов и волонтеров.
Вторая составляющая проекта - дополнение баз знаний образцами устного творчества с целью их использования в процессах дообучения моделей ИИ следующих поколений. Язык существует не только в письменной форме, но и в устной. Одним из частых вариантов взаимодействия человека с ИИ в виде умных устройств - просьба включить песню, продемонстрировать видеоролик. Заявитель уже работал в этом направлении во время реализации проекта "Народы Прибайкалья" (2012 г). Было записано порядка 100 выступлений коллективов и отдельных исполнителей. Мы планируем продолжить эту работу, но привести ее в соответствие с новыми техническими возможностями и сценариями возможного использования не только человеком, но и машиной. Мы хотели бы записать новые видео - с прицелом на детскую аудиторию (детские песни, сказки) Второе - сопроводить опубликованнные видео титрами на бурятском языке. Это позволит связать звучащее и письменное слово. По мере развития систем обучения ИИ это позволит обучать их в том числе устной речи.

Цель

  1. Инициация работы по проектированию и первичному наполнению 3 баз знаний на бурятском языке (на разные ЦА)
  2. Дополнение баз знаний образцами устной речи

Задачи

  1. Загрузка и разметка данных в 3 датасетах (до 10 тыс. пар)
  2. Подготовка списка подходящих источников (до 50 наименований)
  3. Съемка, публикация и отитровка 30 номеров с образцами устного творчества

Обоснование социальной значимости

По исследованиям ЮНЕСКО, в мире каждый второй язык находится под угрозой исчезновения. Это общемировая тенденция глобализации, где доминирующий язык вытесняет более слабый. К концу XXI века исчезнет половина языков. Языки народов Прибайкалья также находятся под угрозой. Бурятский язык не является исключением. Все переписи населения вплоть до 2020 г. говорят о стабильном снижении уровня владения родным языком у населения. В 2002 г. на бурятском говорило 368807 из 445175 человек – 82,85 %. По итогам переписи 2020 года число владеющих языком сократилось до 306 857, из них в повседневной жизни язык используют 285 778 (Том 5, табл.4 Результатов переписи 2020) В Иркутской области цифры составили 42 557 и 39 067 человек. Одним из факторов - особенно в городах - отсутствие языковой среды, взаимодействие в мессенджерах, с в коммуникационной среде, с "умными" устройствами на русском языке. Расширить сферу использования могли бы новые технологии- в частности искусственного интеллекта. Работа по выстраиванию инструментов взаимодейстивя с системами ИИ ведется по нескольким языкам - татарскому, якутскому и некоторым другим. Инициативы по дообучению языковых моделей реализуются и в Республике Бурятия. Иркутская область обладает значительным культурным и научным потенциалом, чтобы тоже подключиться к этой работе. Главная проблема работы с малыми языками — на них недостаточно данных в цифровой форме. По замечанию замдиректора РГБ по цифровизации (ссылка на интервью в разделе "Видео"") , проблемой становится даже приведение карточек изданий в машиночитаемый вид. Программы не могут прочитать надписи на языке помимо русского. Про дальнейшую обработку тем более речи не идет. При этом начать движение к решению этой проблемы можно даже малыми силами.
Такой проект предполагает использование специальных программ и подходящего оборудования, нужны вложения в компьютерную инфраструктуру, но самое главное - в обучение людей. Основной статьей расходов становится разметка данных, при этом требуется участие специалистов и волонтеров владеющих бурятским языком. К работе по проекту мы привлечем студентов-практикантов, ориентируемся на специальности "бурятская филология", "анализ данных". Надеемся, что для кого-то участие в проекте станет отправной точкой для дальнейшей работы в этом направлении.
Подготовленные датасеты будут опубликованы в свободном доступе, будут доступны к использованию специалистами ведущих научных и технологических центров. Например, специалисты Яндекса смогут использовать их для внедрения бурятского языка в сервис Яндекс.Переводчик.

География проекта

Иркутск, Эхирит-Булагатский, Ольхонский район

Целевые группы

  1. Творческие коллективы и индивидуальные исполнители с репертуаром на бурятском языке
  2. Студенты специальностей связанных с ИИ
  3. Лица, владеющие бурятским языком - педагоги, филологи

Контактная информация

Иркутская обл, г Иркутск, Свердловский р-н, ул Мамина-Сибиряка, д 27, кв 25