MapReduce и Hadoop: какие проблемы они хорошо решают?

570
Kaitlyn Mcmordie

Как я уже понимаю, похоже, что оба имеют схожие функции (за исключением того, что MapReduce является собственностью Google, а Hadoop с открытым исходным кодом).

Мне было интересно не «как они работают», а несколько хороших примеров обычных проблем, которые они используют для решения. Я знаю, что они принимают параллельные входы (или делают их параллельными). Используются ли MapReduce и Hadoop для общих параллельных вычислений, или проблема должна быть более конкретной, чтобы лучше соответствовать двум моделям?

-1

1 ответ на вопрос

1
Ƭᴇcʜιᴇ007

Не забывайте, Hadoop MapReduce . :)

«Использование» для MapReduce (согласно Википедии ):

MapReduce полезен в широком спектре приложений, включая: распределенный grep, распределенную сортировку, обращение графов веб-ссылок, термин-вектор на хост, статистику журналов веб-доступа, построение инвертированного индекса, кластеризацию документов, машинное обучение и статистический машинный перевод. Кроме того, модель MapReduce была адаптирована для нескольких вычислительных сред, таких как многоядерные и многоядерные системы, настольные системы, добровольные вычислительные среды, динамические облачные среды и мобильные среды.

В Google MapReduce использовался для полной регенерации индекса Google World Wide Web.

Он заменил старые специальные программы, которые обновляли индекс и проводили различные анализы.

Посетите эту страницу, чтобы получить огромный список организаций, использующих Hadoop, и то, для чего они его используют.

Несколько из "B", например:

BabaCar cluster кластер из 4 узлов (32 ядра, 1 ТБ).

Use Мы используем Hadoop для поиска и анализа миллионов бронирований.

Baidu - ведущая поисковая система на китайском языке. Ad Hadoop использовал для анализа журнала поиска и выполнения некоторых работ по поиску в базе данных веб-страниц.

Handle Мы обрабатываем около 3000 ТБ в неделю

◦ Наши кластеры варьируются от 10 до 500 узлов

◦ Hypertable также поддерживается Baidu

Кластер Beebler ◦ 14 (каждый узел имеет: 2 двухъядерных процессора, 2 ТБ памяти, 8 ГБ ОЗУ)

Had Мы используем hadoop для соответствия профилей знакомств

Benipal Technologies - Аутсорсинг, Консалтинг, Инновации ◦ Кластер из 35 узлов (процессор Core2Quad Q9400, 4-8 ГБ ОЗУ, 500 ГБ HDD)

◦ Самый большой узел данных с процессорами Xeon E5420 * 2, 64 ГБ ОЗУ, 3,5 ТБ HDD

Capacity Общая емкость кластера около 20 ТБ в гигабитной сети с отказоустойчивостью и избыточностью

Ad Hadoop используется для внутреннего анализа данных, разработки приложений, тестирования и обхода ограничений ввода / вывода

Вау, спасибо! Кстати, когда происходят такие масштабные перебои с данными, такие как Beebler и поисковая система Google, я думаю, что мне было интересно, знаете ли вы, какая информация «отображается», а затем что «сокращается»? :) Kaitlyn Mcmordie 12 лет назад 0

Похожие вопросы