Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Наносемантика информационные технологии нейросеть IT ПО софт Accenture Navicon облачные технологии HRlink Нетрика ИТ Аэродиск КЭДО SIMETRA CorpSoft24 AXENIX БФТ ДатаРу Syssoft СХД MONT 1С Кадры iSpring Hybrid Mail.Ru Roox ЦОД Utrace ALMI Partner Varonis BI iTrend ERP Innostage Sellty Linx microsoft АТИ DCLogic облако MCS Avanpost Gagarin ТехЛАБ b2b IT_One iFellow SoftWell 1C CRM Fork-Tech Реестр SAP ROBBO ВУЗ МФЦ Бизнес N3. Health Glorax Group банк СЭД IaaS GlobalCIO МФУ VolgaBlob СиДиСи ЭДО Nubes ФСТЭК N3 Онсек Galenos ОС ИРЦЭ HR ЕГИСЗ банки бизнес форум IoT big data работа ГИС спорт РОББО SaaS ВШЭ СУБД Япония Валарм защита финтех дизайн Банк Яндекс RPA Gartner печать API Банки PR Telegram АксТим Kaspersky VDI Nexign Big data тренды Печать сервис PTV Грузия дети 5G связь ATI.SU склад ФНС Премия САПР архивы Лента Autodesk ритейл Yandex Тула MDM EdTech FIGURA Webinar офис центр Mobotix Аврора нефть газ ретейл видео VR FNC-Group сделка PropTech Соло Москва Индия ECM 3D IDC премия AI Russia Google почта опрос Rubytech STADA Сбер Магнит Open Source GAGAR> PWA apple Scloud Linux backup дорога школа CNews Minervasoft Axenix Software AG timebook Collibra Тверь клиент Dow Jones Камеры Neuro Angel парки риски ЕАЭС Дети охрана Анализ Qlik ДиаЛаб ставки США кризис CDC Портал ROBIN БИСКИД СТГМ BIM IFC IPD Lenovo IBM PLM ISS blockchain авто патент ГЧП hi-tech МИАЦ грант ЦУМ Global CIO мода льготы РосСХД Documino Atlassian ВТБ Лизинг development промо АСИ омс ESET VPN Huawei Tableau ФАС L’Oreal ОАЭ Amazon Aliexpress аудит TomTom бюджет итоги Cisco Крым МТС TAdviser X5 Group BIMIT SLA MALLIT климат N METRO Service Desk Африка Cnews сайт Омск In-DAP ЖКХ Axoft UIDM EMS туризм Дикси b2c СМИ тарифы СПбГУ Forbes Китай NVIDIA GSEA Headhunter АСУ ТП Versta

14.11.2023 19:56

Правообладатель: Агентство iTrend

Оценка от партнеров: плюс / минус

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:

«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Оценка от партнеров: плюс 0 / минус 0

Поделитесь статьей и отправьте открытку

Выберите цвет открытки:

скачать открытку



	запомнить это устройство	забыли пароль