Вы найдете много историй успеха с модулем Python Beautiful Soup, и он широко рекомендуется для очистки веб-страниц, к которому я отнесу эту категорию (если вы предложите решения с регулярными выражениями, вы быстро получите выговор пользователями SU и SO). :-)). Это то, что я использовал бы для очистки вашего примера amazon.com, и я использовал это в других контекстах.
Если у вас есть некоторый базовый опыт работы с Python, вы можете посмотреть примеры и быстро найти работающее решение. Если у вас есть общие привычки программирования, вы, вероятно, можете сделать то же самое с долей времени.
(Мне не нравится, когда люди говорят: «О, это действительно просто!», Когда на практике это занимает много времени у того, кто не привык к инструменту, но я считаю, что Beautiful Soup и Python - это простое и надежное решение. Если вы найти решение, которое подходит вам лучше: great :-)).
Приложение: какая у вас система, где все страницы - статический HTML? Данные не хранятся в базе данных где-то? Я думаю, не из-за вашего вопроса. Это может создать проблему (для любого автоматического решения), если HTML-код не одинаков на всех страницах продукта.