The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Открыт код системы распознавания и перевода речи Whisper

25.09.2022 20:26

Проект OpenAI, занимающийся развитием общедоступных проектов в области искусственного интеллекта, опубликовал наработки, связанные с системой распознавания речи Whisper. Утверждается, что для речи на английском языке система обеспечивает уровни надёжности и точности автоматического распознавания близкие к распознаванию человеком. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования. Код открыт под лицензией MIT.

Для обучения модели использованы 680 тысяч часов речевых данных, собранных из нескольких коллекций, охватывающих разные языки и тематические области. Около 1/3 задействованных при обучении речевых данных приходятся на языки, отличные от английского. Предложенная система корректно обрабатывает такие ситуации, как произношение с акцентом, наличие фоновых шумов и применение технического жаргона. Кроме транскрипции речи в текст, система также может переводить речь с произвольного языка на английский язык и определять появление речи в звуковом потоке.

Модели сформированы в двух представлениях: модель для английского языка и многоязычная модель, поддерживающая русский, украинский, белорусский и другие языки. В свою очередь, каждое представление делится на 5 вариантов, отличающихся размером и числом охваченных в модели параметров. Чем больше размер, тем больше точность и качество распознавание, но и выше требования к размеру видеопамяти GPU и ниже производительность. Например, минимальный вариант включает 39 млн параметров и требует 1 ГБ видеопамяти, а максимальный включает 1550 млн параметров и требует 10 ГБ видеопамяти. Минимальный вариант быстрее максимального в 32 раза.

В системе используется архитектура нейронной сети "Transformer", включающая взаимодействующие друг с другом кодировщик и декодировщик. Звук разбивается на 30-секундные отрывки, которые преобразуются в log-Mel-спектограмму и передаются кодировщику. Результат работы кодировщика направляется в декодировщик, который предсказывает текстовое представление, смешанное со специальными токенами, позволяющими в одной общей модели решать такие задачи, как определение языка, учёт хронологии произношения фраз, транскрипция речи на разных языках и перевод на английский язык.

  1. Главная ссылка к новости (https://openai.com/blog/whispe...)
  2. OpenNews: Реализация системы машинного обучения для синтеза изображений по текстовому описанию
  3. OpenNews: Учреждён крупнейший некоммерческий исследовательский проект OpenAI
  4. OpenNews: Amazon опубликовал набор данных для понимания речи на 51 языке
  5. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
  6. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
Лицензия: CC BY 3.0
Наводку на новость прислал Artem S. Tashkinov
Короткая ссылка: https://opennet.ru/57812-ai
Ключевые слова: ai, speech
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (56) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, InuYasha (??), 20:49, 25/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Ну, что ж - спасибо что не под проприетарной лицухой "for special services only". Скоро ждём оффлайн-автогенератор субтитров с переводом к онемэ. :)
     
     
  • 2.2, Pahanivo пробегал (?), 20:59, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ээээээ на твоейтрубе оно уже даже онлайн вроде как, и с переводами разными.
    Короче и в блекджек уже отыграли и всех шл"%;!" утомили ...
     
     
  • 3.7, Аноним (7), 21:46, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Нооо, нам нужны субтитры для прона, а не для ютуба.
     
     
  • 4.35, Аноним (35), 06:06, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    *звуки симулирующего стона на японском*
     
     
  • 5.40, ыы (?), 09:48, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Он сумеет распознать симулируещие от несимулирующих...? Круто!
     
     
  • 6.62, Аноним (62), 13:09, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Бинарный предиктор, кстати, это должно быть просто написать!

    Проблема разметить базу.

     
  • 5.41, ыы (?), 09:49, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    а мат будет звездочками забивать или писать как есть?
     
     
  • 6.44, InuYasha (??), 10:46, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Писать будет только в платной версии с максимальной моделью )
     
  • 3.48, Аноним (48), 12:58, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Далеко не для всего на Ютубе есть автосубтитры. Особенно, если язык по умолчанию для выложившего не совпадает с языком видео. И далеко не всё пускают на Ютуб.
     
  • 2.18, Военный Комиссар Очевидность (?), 23:28, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    "special services" - это псевдоанглицизм, дословный перевод русского слова "спецслужбы", носители языка используют либо словосочетание "intelligence community", что на руский дословно переводится как "разведовательное сообщество", либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается).
     
     
  • 3.42, Аноним (42), 10:08, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > либо "law enforcement", что вообще не переводится на русский, но можно приблизительно перевести как "[службы по] обеспечению выполения законов силовым путём" (при этом часть в квадратных скобках не произносится и подразумевается).

    "Исполнительная власть"

     
  • 3.49, Аноним (48), 12:59, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > "law enforcement"

    "Силовики".

     
     
  • 4.70, mandms (ok), 00:42, 13/10/2022 [^] [^^] [^^^] [ответить]  
  • +/
    согласен, но, русский пополнил мировую культуру, английский, не только with troyka, vodka, sputnik and Cheburashka, but also with
    the Siloviks!

    PS: BTW Waiting next stage for "the slaboviks"
     
  • 3.54, Igor (??), 21:15, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    law enforcement = правоохранительные органы
     
  • 3.61, Аноним (62), 13:08, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Компетентные органы
     

  • 1.3, Аноним (3), 21:07, 25/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    лучше бы запилили хороший переводчик с китайского. у них конечно много всякого говна написано, но есть новеллы про мотоблоки которые я хотел бы дочитать. а буржуи бросают перевод при малейшем намеке на нарушение авторских прав.
     
     
  • 2.13, Аноним (13), 22:48, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Слушаемся и повинуемся. Вот ваше блюдечко с устрицами.
     
     
  • 3.17, Аноним (17), 23:21, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Этот да дорога овощ блюдо мужчина устрица пластина сын.
     
     
  • 4.37, Аноним (-), 07:50, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Закручиный думать длинный покупатель алиэкпрес ?
     
  • 3.56, Аноним (56), 23:01, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Нет уж, обойдётся ананасами с рябчиками.
     
  • 3.65, ютуб ютубов (?), 16:56, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Съешь ещё этих мягких французских булок, да выпей же чаю
     

  • 1.5, EuPhobos (ok), 21:29, 25/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > система также может переводить речь с произвольного языка на английский язык

    Что-то тут не сходится.. тогда нейронку нужно было бы обучать всем "произвольным" языкам..
    Может быть "..умеет переводить распознанный английский на произвольный язык" - это более логично.

     
     
  • 2.6, Аноним (6), 21:44, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Даже по диаграмме видно что там именно так как сказанно, тоесть переводит с произвольного языка на английский.
     
     
  • 3.9, EuPhobos (ok), 22:35, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Да всё верно, изначально прочитав:
    > 680 тысяч часов речевых данных, собранных из нескольких коллекций, охватывающих разные языки и тематические области

    - я почему-то подумал что именно 680тыс часов англ речи.

     
  • 2.34, Аноним (34), 04:55, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >тогда нейронку нужно было бы обучать всем "произвольным" языкам..

    Google Translate это уже и так более-менее умеет. Он переводит "всё, что угодно" через word2vec-промежуточный язык.

    А дальше можно пропустить его переводы через TTS. Само по себе это не будет работать, но вот в качестве "дообучения" для системы, изначально натренированной на нормальных аудиозаписях -- может.

     

  • 1.14, Аноним (14), 22:49, 25/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Уже переводит "казнить нельзя помиловать"?
     
     
  • 2.15, Аноним (15), 22:55, 25/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    И замок!
     
     
  • 3.27, OpenEcho (?), 02:47, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo

    Нахера херню захерячил, - расхерячивай нахер
    Нафига фигню завигячил, - расфигячивай нафиг
    Нах хню захнячил, - расхнячивай нах
    ...

    И любой славянин воткнет о чем речь в отличие от Бафалло, которое трудно назвать обиходным ;)

    Кстати, в теории передачи информации, славянские языки считаются наиболее избыточными и требуют наличие более высокого пропускного канала для обеспечения полной передачи информации, но при этом славянские языки являются наиболее устойчивыми к потери звуков где мозг способен восстановить передавaемую информацию с наибольшей вероятностью (даже выкинув все глаcсные, все равно остается возможность восстановить смысл многих предложений). Англо языковая группа, наоборот, наиболее лаконичная, т.к. не имееют такого излишества с приставками и окончаниями, которые позволяют славянским языкам с одним корневым словом передавать различные окраски и даже смысл.

     
     
  • 4.29, Аноним42 (?), 03:03, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Англо языковая группа

    И тут мои преподаватели из лингвистического университета перевернулись в гробах
    Есть West Germanic languages и в каком пьяном угаре ее можно перевести «англо» наука понять не может

    Славянские языки это вообще сомнительное обобщение
    Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским и никаким боком к русскому не имеет отношения

    Никаких «славян» вообще не существует, есть ЯЗЫКОВАЯ общность славянских языков. И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других. И твою фигню расфигаченную не поймет носитель другого славянского языка(ну кроме принудительно русифицированных носителей беларуского, украинского или русинского)

    Пример с Баффало это лишь один из примеров, просто самый простой и я его всегда показываю тем, кто несет чушь про багоизбранность русского языка. Я могу и из английского еще примеров насыпать, и из мандарина, из польского, ну и еще языков из 10 точно, в крайнем случае напишу бывшим однокурсникам

     
     
  • 5.33, Аноним (34), 04:47, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ноу, Аноним42, если бы название "церковно-славянский" было исконно русским идеологическим конструктом, по-английски бы его и писали как-нибудь навроде Olde Bulgar, тогда как англосаксы пишут Old-Church Slavonic.

    И, кажется, никто не считает его предком русского языка, как и не считает "старославянский" (предок югославского), кроме "народно этимологии".

     
  • 5.36, Аноним (36), 07:30, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Современный русский язык являясь одним из 4 восточнославянских по неведомым науке причинам сами русские любят > объявлять наследником древнеболгарского(они его называют церковнославянским), хотя тот относится к южнославянским > и никаким боком к русскому не имеет отношения

    Да ведь церковно славянский язык был создан как обобщение нескольких языков.  
    Как русский язык может происходить от церковно славянского языка?  
    Никак.

     
  • 5.45, InuYasha (??), 10:49, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    На арабском напиши. Каких-то 100 лет назад его все знали.
     
     
  • 6.51, john_erohin (?), 13:40, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    никакого "арабского языка" не существует (либо "не существовало до начала вещания Аль-Джазиры").
    как и самих "арабов".
    существует тысячи ближневосточных племен и сотни союзов племен, не все из них друг другу друзья.

     
     
  • 7.67, InuYasha (??), 11:03, 29/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Окей, шлем Ивана Грозного тоже Аль-Джазира расписывала.
     
     
  • 8.68, john_erohin (?), 20:23, 03/10/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Иван Грозный - легенда у кого-то были короли-олени или короли-дельфины, а н... текст свёрнут, показать
     
     
  • 9.69, InuYasha (??), 22:22, 03/10/2022 [^] [^^] [^^^] [ответить]  
  • +/
    ну так - Миллер со Шлёцером не просто так биткоины свои кушали Но фотки шлема т... текст свёрнут, показать
     
  • 5.47, OpenEcho (?), 11:14, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > И тут мои преподаватели из лингвистического университета перевернулись в гробах

    Ну, если это те самые преподаватели, которые научили вас извергать столько желчи, то понятно почему крутятся


     
  • 5.52, Аноним (52), 17:28, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ну я вот сейчас общаюсь с девушкой из Польши на одном из серверов Дискорда. Я ее польский понимаю, она мой русский нет. Поэтому общаемся либо по-английски либо по польски со встроенным в яндекс клавиатуре на телефоне переводчиком. Вполне нормально, только иногда править фразы приходится.
     
  • 5.53, Neon (??), 17:33, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > И носители всех других славянских как раз русский понимают с трудом, а носители русского вообще не понимают никаких других.

    Полное вранье. Русские понимают тех же поляков, чехов, болгар,  не говоря уже о древних украх и не менее древних белОрусах.)))

     
  • 4.31, Аноним (-), 04:01, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Кстати, в теории передачи информации, славянские языки считаются наиболее избыточными

    Ссылку можно на статью, которая показывает это?

    Я вопросом не занимался намеренно, но когда самообразования ради изучал сжатие текстов, там выходило, что если в предсказательную модель заложить грамматику, то один хрен все языки давали один и тот же коэффициент сжатия. Но я бы с радостью обновлю свою картину мира, и поэтому заклинаю тебя, кинь ссылку на статью, которая считает избыточность кодирования языков и сравнивает. На ту статью из который ты узнал об этом.

     
     
  • 5.32, Аноним (14), 04:15, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А в чём сложность? Кодируешь или в 0 или 1. Остаётся 1 бит, который вмещает в себя вселенную.
     
     
  • 6.39, Аноним (17), 09:01, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Головой думать не приучен? Гуманитарий?
     
  • 5.46, OpenEcho (?), 11:11, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > На ту статью из который ты узнал об этом.

    Какая статья? Я же написал, - теория передачи сигнала, изучается в университетах, информация из памяти еще со студенческих времен


     
  • 3.30, Аноним (14), 03:59, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Во-первых, жители Баффало не настолько знают грамматику, чтобы это понять. Они скорее скажут Fu.k fu.k Fu.k...
    Во-вторых, если то что написано на бумаге, не имеет значения в устной речи, то это никак не может быть корректным.
    В-третьих, для автора этой идиоматической хрени Dmitri Borgmann, это точно приоретённый язык. Если ты не в курсе, английский язык "пишут" в Оксфорде.
    В-четвёртых, все лингвисты - идиоты, потому как ищут связь слов в их звуках. Даже на опеннете найдёшь баранов, которые "изобретают" сленг для общеупотребительных слов. Что уже говорить о рождении разговорных языков, когда новые слова рождались из общения с соседнями народами, с учётом того, что общающиеся недослышали или не точно передали слово дальше по цепочке.
     
     
  • 4.38, Аноним (17), 09:00, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Что ты несёшь?
     
     
  • 5.66, Гость (??), 01:35, 29/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Свет.
    А ты тьму.
    Теперь угадай за кем пойдут.
     

  • 1.43, anonymous (??), 10:24, 26/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    С моделью large очень хорошо распознаёт русскую речь. Правда, на процессоре работает крайне медленно.
     
     
  • 2.55, _kp (ok), 22:51, 26/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А насколько медленно?
    Хватит 16 ядерного Райзена для распознавания речи без задержек?
    1. тупо диктовка текста, но поток слов непрерывный.
    2. Речевое управление. Велики ли лаги?
     
     
  • 3.63, anonymous (??), 13:25, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    На 4-х ядерном Core i5 требуется более часа для распознавания минуты записи.

    Диктовку без пауз не пробовал, но обычную распознаёт хорошо.

    Если нужно быстрое распознавание то можно посмотреть на проект Vosk. Для Android есть управлялка Dicio на Vosk, её даже телефоны (мощные) тянут.

     
  • 2.59, Аноним (-), 02:30, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Где скачать?
    Может у меня глаз замылился, но смотрю и вижу только описания разные без ссылки на скачивание.
     
     
  • 3.64, anonymous (??), 13:26, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Можно поглядеть PKGBUILD пакета в Archlinux, там есть команды сборки.
     

  • 1.50, FSA (??), 13:15, 26/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А шотландский акцент поддерживает? :-D
     
  • 1.58, Аноним (-), 02:24, 27/09/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Я один такой тупой, что не могу найти где скачать готовые модели?
    Если один, подкиньте пожалуйста URL где это сделать, а то в упор не нахожу.

    > Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей, готовых для использования.

    И где? Здесь https://github.com/openai/whisper/blob/main/model-card.md  только описание этих моделей.

     
     
  • 2.60, Аноним (-), 02:49, 27/09/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Сам себе отвечаю Нашел внутри файла _init_ py _MODELS tiny en https... большой текст свёрнут, показать
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру