Методы анализа голосовых записей продолжительностью более 10 часов?

542
Siva

У меня есть ситуация, когда у меня есть большой mp3-файл, который является выходом устройства записи журналиста, это устройство работает в течение долгого времени, так как я забываю нажимать кнопки записи всякий раз, когда разговариваю с людьми на сайте, куда я иду, чтобы получить отчеты о инциденты и т.д ..

так что в основном у меня есть 11-часовой mp3-файл, и в настоящее время я анализирую его, чтобы найти записи, которые я сделал. Это занимает несколько часов, 4-5 часов.

Так что есть способ ...
1. Получить только записи голоса из этого файла
2. Удалите или уменьшите громкость трафика / или другие фоновые шумы, такие как звуки машины и т. Д., Так что только звуки голоса извлекаются из mp3.

Не уверен, что это возможно

Спасибо

1
Боюсь, я не смогу помочь вам с вашей текущей ситуацией (хотя, возможно, если вы воспроизведете ее с удвоенной или большей скоростью, вы сможете быстрее найти свои интервью?), Но, возможно, в будущем вам следует взять с собой блокнот и просто запишите примерно в какое время вы разговариваете с людьми. Также запишите, в какое время вы начинаете запись, и затем вы можете использовать это для почти мгновенного перехода к каждой записи голоса. Kromey 13 лет назад 1

1 ответ на вопрос

2
slhck

To be clear from the beginning on: It is a highly complicated task to automatically analyze audio recordings. Trying to differentiate between speech and noise is theoretically possible, but I doubt there is a one-click solution available on the Internet. This sounds more like research work.

Also, your recording will probably not have passages of complete silence. If it were so, one could split the file at the points where there is absolutely no sound - this involves some programming as well, I can't recall any program which does that.

Finding significant parts or parts with voice

You might want to use a (free, cross-platform) program like Audacity in order to see the Waveform of the MP3. Using the Waveform you can see where "most" of the action is.

enter image description here

For example, the brownish sections I marked are the ones that exceed a certain threshold. They are most likely the ones with the voice data you are trying to find.

The other (blue) parts might not contain any relevant information or speech as they aren't as loud as the others.

Also see the gaps in between - these will help you to identify parts where really nothing is going on. You could cut the file there and split it in order to get different "interviews" (or whatever you were recording).

Noise elimination

To eliminate noise, you can try to use the Equalizer effect and filter out certain frequencies. You will need to experiment with that, as not every recording device is the same and noise conditions change.

That being said you can try to boost frequencies between 500Hz and 1kHz (or even up to 4kHz), and cut frequencies below 500Hz and above 8kHz.

Audacity also has certain noise elimination filters to remove static, hiss, hum, or other constant background noises. Experiment with those.

Я уже попробовал метод формы волны Audacity, и в моем случае нет большой разницы между шумом и речью, только тонкое различие, и если я удаляю его, то я пропускаю записи речи тоже по ошибке ... Любой другой путь возможен? фильтры удаляют очень низкие записи голоса тоже .. Siva 13 лет назад 0
Также записи имеют очень тихие голоса, так как я использую их на собраниях, где люди могут говорить небрежно тихим голосом. Siva 13 лет назад 0
@Siva Это плохо. Если вы даже не можете определить разницу между речью и шумом в ваших записях, то, я думаю, ни один алгоритм не сможет сделать это автоматически. slhck 13 лет назад 0
Я держу вопрос открытым для большего количества входов в течение пары дней .. если ничего, то я отмечу Ваш ответ Siva 13 лет назад 0
@Siva Нет проблем, может быть, кто-нибудь придумает какие-то идеи .. slhck 13 лет назад 0

Похожие вопросы