Как хранить обработанные данные?

327
bsg

Я работаю над проектом с использованием данных Twitter. У меня есть несколько сотен тысяч твитов, загруженных и сохраненных в файлах. Данные были возвращены в формате json, и потребитель потока, который я использовал, преобразовал их в словари python, поэтому все они хранятся в текстовых файлах, по одному твиту на строку, как словари python.

Существует много посторонней информации, поэтому у меня есть скрипт на python, который читает каждую строку в виде слова и извлекает некоторую полезную информацию. Как лучше всего хранить эти данные сейчас, когда они извлечены? Я распечатывал его обратно в CSV-файлы, но у меня были некоторые проблемы с этим, и я столкнулся с некоторыми людьми, которые, кажется, считают, что это не лучший способ сохранить его.

Каков наиболее эффективный способ хранения этих данных? Мне нужно будет получить к нему доступ, чтобы найти шаблоны, сопоставить похожие элементы и т. Д. Я думал об использовании базы данных - это лучший вариант? Есть ли другие, которые лучше?

4

1 ответ на вопрос

2
Journeyman Geek

If its just key pair stores, apparently nosql style databases work well - twitter does use these, and they might be a great fit if you need to handle a lot of data with very little structure. You could probably use a traditional rdbms, or maybe an embedded sqlite db if there are more than a simple key pair store and had structured data with relations.

It might also help to understand the weakness of a flat file store (no transaction logging or structure), nosql (no ACID) and a traditional db(bulky, less scalable but well understood and often reasonably fast). With a small non updated set of data, any of them should work

Спасибо - думаю, я собираюсь попробовать использовать Hadoop и HDFS. Спасибо за вашу помощь! bsg 11 лет назад 0

Похожие вопросы