У Asterisk есть интерфейсы audiohooks, которые можно использовать для этого (требуется кодирование c / c ++)
Также есть интерфейс EAGI (звук может быть получен по номеру файла 3).
Основная проблема с таким ботом не связь. Услуги телефонии используют голос 8 кГц, и это НЕ достаточно для правильного распознавания. Нет лучшего способа изменить голос, все кодеки в соединении PSTN / GSM на данный момент являются кодеками 8 кГц.
Также у IBM Watson есть сервисы интеграции телефонии (дорогостоящие), которые принимают вызов, распознают, отправляют вам результат посредством обратного вызова. Но опять же, качество распознавания ужасно, если язык человека с другой стороны не идеален.