Город:  Санкт-Петербург
+7 812 200-43-00
8 800 100-22-10
+7 499 350-43-00
8 800 100-22-10
+7 905 301-53-04
8 800 100-22-10
8 800 100-22-10
8 800 100-22-10
+7 961 420-49-38
8 800 100-22-10
+7 918 535-34-10
8 800 100-22-10
+7 906 856-16-84
8 800 100-22-10
8 800 100-22-10

Разработка группы компаний ЭГО Транслейтинг в области искусственного интеллекта EGOTech пополнила портфель проектов Фонда «Сколково».

23.05.2019 Проект «Терминологический портал EGOTech как инструмент нормализации текстовых корпусов (dataset) для машинного обучения в области обработки естественного языка» вошел в портфель инновационных разработок Фонда «Сколково». Разработчиком проекта выступила группа компаний ЭГО Транслейтинг. Направление разработки – «Стратегические компьютерные технологии и программное обеспечение». 

28eaacb8cfe5b10791c6b309e0180180.jpg


Описание проекта EGOTech 

Cуть представленной технологии EgoTech Terminal (рабочее название проекта) – это создание инструмента для обработки, нормализации и анализа текстовых данных для машинного обучения. 
Сегодня в России искусственный интеллект применяют преимущественно в бизнес-аналитике: при создании систем компьютерного зрения; а также в здравоохранении и системах обработки естественного языка. В разрезе обработки естественного языка (Natural Language Processing, NLP) рассматривается также машинный перевод. Нейронные сети, основу искусственного интеллекта, нужно обучать. Обучение нейронной сети – это процесс, в котором параметры сети настраиваются путем моделирования среды, в которую эта сеть встроена. Для машинного обучения нейронных сетей необходимы чистые массивы данных, так как сети очень чувствительны к их качеству. Процесс очистки данных называется «нормализация». Для каждой конкретной цели могут быть применены различные критерии нормализации. Основными являются: обработка неязыковых элементов, единообразное употребление терминологии, дедупликация, разметка, приведение данных в табличную форму и пр., что осуществляется, в том числе, с помощью инструментов анализа и обработки языковой информации. 
Инструмент EgoTech Terminal используется для сбора текстовых данных, их анализа, обработки (в частности, формирования тематических корпусов) и нормализации для обучения нейросети, в том числе для тренировки систем машинного перевода. Используя данный инструмент, пользователь получает: 
1) доступ к наработанным и очищенным текстовым данным;
2) доступ к инструментам для создания и обработки тематических корпусов (domain-adaptive dataset) для обучения систем машинного перевода;
3) доступ к инструментам обработки, нормализации и анализа текстовых данных. 
Главная потребность потенциального заказчика – получить качественный и быстрый перевод больших объемов текста с наименьшими затратами. Используя данный инструмент, клиент получает качественный и быстрый отраслевой перевод за счет формирования очищенных данных; доступы к наработанным и очищенным текстовым корпусам, инструментам для создания и редактирования тематических баз данных (domain-adaptive dataset).
Несмотря на то, что очистка данных (в том числе для машинного перевода) является востребованной технологией во многих отраслях, готовых и рыночно подтвержденных аналогов пока нет. Именно поэтому создатели продукта рассчитывают занять определенную нишу на рынке искусственного интеллекта.
Портал EGOTech создается с расчетом на максимальную открытость и удобство, как для пользователей, так и для разработчиков систем машинного перевода. Предполагается продажа подписки по модели SaaS и оказание услуг по обучению систем машинного перевода под нужды заказчика. Потребность в таких продуктах и услугах будет расти по мере формирования рынка автоматизированного перевода тематического материала. Активное продвижение проекта на российском рынке начнется с 2020 года, а с 2023 года будут предприняты шаги по выходу на международный рынок искусственного интеллекта.

Справка о рынке

Мировой рынок искусственного интеллекта в области обработки естественного языка оценивается в $7,63 млрд. с ожидаемым приростом до $16,07 млрд. к 2021 г. Рост обусловлен повышением производительных мощностей, оцифровкой данных, интеграцией методов машинного обучения в NLP. NLP является одним из направлений развития искусственного интеллекта, занимая примерно ¼ от всего рынка.
Российский рынок находится на начальной стадии развития. По данным Teradata, прогнозируется рост рынка с 200 млн. рублей до 28 млрд. рублей к 2020 году. 
Увеличение затрат на искусственный интеллект планируют 57% российских компаний с прогнозируемым доходом на каждый инвестированный $1: $1,99 – в ближайшие 5 лет, $2,87 – в последующие 10 лет. 
Драйверами рынка будут выступать финансовый сектор, ритейл и промышленный сектор экономики (источник: TAdviser). Сегодня мировой рынок машинного перевода составляет $3,7 млн., потенциальный объем в перспективе 5 лет – $9,9 млн, доля кастомизированного машинного перевода может составить до 60%. 
Еще в 2012 году корпорация ЕМС, один из мировых лидеров по производству систем хранения данных, обнародовала результаты исследования Big Data, проведенного IDC*. Беспрецедентный рост объемов информации и крайне низкий показатель обработки (анализируется всего 0,4%) – таковы итоги исследования. Согласно прогнозам IDC, к 2020 году Цифровая Вселенная достигнет объема в 40 зеттабайт*. Совершенно очевидно, что человек не справится с такими объемами информации без помощи искусственного интеллекта.
  
Поделиться: