Как улучшить речевой аудио материал 22,05 кГц для целей прослушивания до 44,1 кГц?

Question

Как улучшить речевой аудио материал 22,05 кГц для целей прослушивания до 44,1 кГц?

507

Konstantin 2018-07-30 в 16:52

Я нашел в сети действительно интересный роман о радио и хотел бы привлечь к нему внимание одного из моих знакомых. К сожалению, аудио материал имеет низкое качество, только 22,05 кГц и 1 канал, моно. Однако это не содержит музыку, только речь. Вообще говоря, это звучит как старое радио или старый телефон. Я хотел бы немного улучшить его, если это возможно, прежде чем отправить его своему другу. Какое программное обеспечение я должен использовать, и какие операции я должен выполнять над аудиофайлом, чтобы он звучал немного лучше?

1

Можете ли вы поделиться образцом аудио? Attie 6 лет назад 1

Да, конечно: https://drive.google.com/open?id=1Sz8YF-fbDI5MoCnXuVNYyPq6-7O_rAD8 Konstantin 6 лет назад 1

Спасибо, смотрите мой обновленный ответ. Attie 6 лет назад 0

Может быть, вы можете запустить его через сверхсложную модель восстановления речи, как описано [здесь] (https://auphonic.com/blog/2018/06/01/codec2-podcast-on-floppy-disk/). Хотя я совсем не знаком с требованиями. Daniel B 6 лет назад 1

4 ответа на вопрос

3

Attie 2018-07-30 в 18:20

22,05 кГц - это не « плохое качество », как говорит устная речь ... большая часть библиотеки Audible имеет частоту дискретизации 22,05 кГц - даже для файлов « высокого качества ».

Если запись « звучит плохо », возможно, это связано с чем-то другим:

битовая глубина (8 бит против 16 бит)
сжатие (низкий битрейт MP3 против AAC или OGG)
микрофон (дешевый против не очень дешевого)
расположение микрофона против считывателя
оригинальный носитель (аналоговый или цифровой / кассетный или мини-диск или ПК)
предыдущий сэмпл с гораздо более низкой частоты дискретизации (что вы сейчас и пытаетесь сделать).

В любом случае, информация сейчас потеряна, и ее будет сложно вернуть. Лучшее, что вы можете сделать, не тратя на это много времени, - это настроить эквалайзер, чтобы он звучал более приемлемо.

Образец, который вы предоставили, не звучит слишком плохо для меня (хотя я не говорю на языке, поэтому, возможно, упускаю некоторые нюансы ...).

Я хотел бы слегка настроить эквалайзер и « нормализовать » звук, чтобы поднять уровень - вы можете обнаружить, что то, что вы считаете плохой записью, на самом деле шум в вашей системе становится более заметным после увеличения громкости.

Форма сигнала изменяется, как показано ниже (с использованием Audacity), до (вверху) и после (внизу):

В записи есть немного реверберации (которая, вероятно, будет исходить из комнаты и, возможно, будет слишком далеко от микрофона). Однако имеется минимальный фоновый шум (отсюда и узкие участки формы сигнала), нет искажений и только один всплеск во всем файле (не показан выше).

2

Tetsujin 2018-07-31 в 08:21

Как уже упоминалось, запись для произнесенного слова на частоте 22,05 кГц сама по себе не является «плохой»; но он также не может быть «исправлен», потому что в записи нет информации, которую можно было бы подчеркнуть. Вы можете работать только с тем, что уже есть.

Некоторое объяснение ... Человеческий голос действительно наиболее различим на частоте 2-6 кГц. Вот где все согласные и что действительно помогает слушателю решить, что на самом деле говорится; это также то, почему засунув пальцы в уши, вы понимаете, что блокирует эти более высокие частоты.
В речи есть информация выше 6 кГц, но она намного выше, а на 11 кГц остается очень мало полезной информации.

Так что - для произнесенного слова они используют частоту дискретизации 22,05 кГц.
Существует очень сложный аудиоанализ, называемый теоремой выборки Найквиста-Шеннона, часто называемый пределом Найквиста, который в основном сводится к
«Наивысшая частота звука, которая может быть записана в аудиофайл, составляет половину частоты дискретизации».
Это соответствует примерно 11 кГц при записи 22,05 кГц.
Это достаточно для человеческого голоса.

Это также означает, что больше нет никакой информации выше, с которой можно работать, даже если вы измените частоту дискретизации до 44,1 кГц [качество звука CD].

На вашей аудиокниге.
Проблема, насколько я понимаю, в том, что читатель был немного ближе к микрофону. Это подчеркивает более низкие частоты, из-за того, что называется эффектом близости . Не нужно вдаваться в подробности здесь, но в целом это делает запись немного скучной.
Он также несколько сжат - динамический диапазон уменьшен, поэтому тихие биты громче, а громкие биты тише. Это должно помочь понять, но это было сделано не так хорошо, как могло бы быть, и имеет тенденцию подчеркивать бас еще больше. Единственная причина, по которой я могу придумать, заключается в том, что это заставляет читателя звучать «более мужественно, более авторитетно» ... но на самом деле не помогает понять в малейшей степени: /

Что нам нужно сделать, это уменьшить басы, подчеркнуть максимумы и попытаться снять акцент с некоторых тяжелых компрессий.
Большая часть этого может быть сделана в Audacity, в большей или меньшей степени, но я чувствую себя более комфортно в Cubase, поэтому позвольте мне показать вам там ...

Большинство людей сказали бы вам сначала нормализовать файл.
Не делайте этого сначала - вы убьете свой потенциальный запас.
Если вам нужно сделать это вообще, делайте это в последнюю очередь .

Также обратите внимание, что вы не можете "отменить" сжатие, которое уже было применено - это было бы эквивалентно возвращению яиц и муки из выпеченного пирога - вместо этого вы можете попытаться смягчить его только в наиболее пострадавших районах.

Если все, с чем вам нужно работать, это эквалайзер, то вы можете попробовать уменьшить уровни ниже 250 Гц, плавно опустившись ниже этого уровня. Затем вы можете попытаться получить некоторые согласные обратно, добавив противоположный наклон выше, возможно, 2 или 3 кГц.

В 3:40 я заметил раздражающий щелчок или сильный удар по губам, который я просто выбрал и повернул к нулю - вы можете получить все умные с помощью кликера, но это не стоило усилий.

Моим оружием выбора для любой спасательной операции, подобной этой, является многополосный компрессор.
Я нашел бесплатный многоканальный комп для Audacity, хотя сам не пробовал, так что YMMV - https://www.gvst.co.uk/gmulti.htm

Я использую значительно более дорогой Waves LinMB, но общая идея та же. Вот как я это настроил ...

На картинке видно, что я очень сильно бью нижний конец, пытаясь убрать этот чрезмерный бум. Середину я почти не трогал. Максимумы Я увеличил их выходной уровень, в то же время применив небольшое сжатие только для того, чтобы некоторые из более тяжелых S и т. Д. Не становились слишком резкими. Кроме того, на данный момент я вообще не увеличил общую громкость - у нас все еще есть достаточно места, чтобы поиграть, и будет лучше, если, когда вы включаете и выключаете свой эффект для сравнения, вы не просто дурачите себя громкостью менять.

Быстрые примеры -
до ...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

после...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

На данный момент, когда вы довольны тем, как это звучит, теперь вы можете нормализовать.

^{Обратите внимание, что мои примеры с более высокой частотой дискретизации, потому что я не могу экспортировать напрямую в 22.05. Это никак не повлияет на результат.}

Одним из приемов работы с изображениями является увеличение глубины в битах при работе с градиентами, а затем снижение до 8-битного. Это уменьшает или даже устраняет визуальную полосу. Мне интересно, полезен ли такой метод в этом контексте (увеличить глубину в битах, применить фильтры и т. Д., А затем вернуться вниз). Yorik 6 лет назад 0

Потенциально. ТБХ, я поднял это до 16-битного 44.1 для работы, но я не уверен, как что-то вроде Audacity будет иметь дело с этим. Само по себе это *** не должно *** иметь никакого значения, если вы не синтезируете высшие гармоники, которые, как я думал, будут слишком далеко для того, что может показаться запросом начального уровня. Кроме того, для сольного произнесенного слова вы действительно можете обойтись с отсечкой 6 кГц и при этом сохранить ** полную ** разборчивость, даже если не «хороший hi-fi». Подумайте, что телефоны делают с аудиосигналом: / Tetsujin 6 лет назад 0

-1

Saurav Kumar Sahu 2018-07-30 в 18:46

Используйте Audacity, которая является программным обеспечением с открытым исходным кодом. Вот ссылка https://www.audacityteam.org/

Проверьте следующую ссылку, чтобы увидеть, можете ли вы сделать что-то для улучшения вашего конкретного аудио https://www.wikihow.com/Get-Higher-Audio-Quality-when-Using-Audacity

Пожалуйста, процитируйте основные части ответа по ссылочной ссылке (ссылкам), так как ответ может стать недействительным, если связанные страницы изменятся. DavidPostill 6 лет назад 0

Accepted Answer · 2018-07-30 18:09:16

Если частота дискретизации для записи голоса была 22 кГц, вы не можете просто улучшить ее, установив ее на 44 кГц. Вы можете сравнить его с растровым изображением: вы не получите больше деталей, увеличив «пиксели». То же самое с моно / стерео. Если у вас есть моно запись, вы не можете превратить ее в стереозапись. Это работает только наоборот, например, превращение стерео в моно.

Однако, если есть другие «проблемы», например, некоторые части записи не имеют достаточной громкости, вы можете исправить это или сгладить резкие изменения и т. Д. Но это зависит от типа проблемы, общего решения нет. Вам следует ознакомиться с этой темой, чтобы вы знали, что такое «техническая проблема», а затем попытаться найти решение. Если у вас есть проблемы с применением этого решения (при поиске решения очень специфической акустической проблемы), было бы неплохо еще раз спросить об этой конкретной теме.

Как улучшить речевой аудио материал 22,05 кГц для целей прослушивания до 44,1 кГц?

4 ответа на вопрос

Похожие вопросы