Как открыть подмножество большого (35MB) файла .xlsx?

1304
David LeBauer

У меня Ubuntu 10.04 работает на Dell Optiplex с 4 ГБ памяти и двумя процессорами 3,16 ГГц.

Я получил таблицу размером 35 МБ. Он открылся в Gnumeric через 5 минут с ошибками и не открывался в Open Office (убил через 20 минут) даже после того, как я присвоил процессу «soffice» высший приоритет (niceness = -20).

Каков наилучший способ справиться с таким файлом? Можно ли извлечь подмножество первых нескольких сотен строк, чтобы я смог разработать сценарий, который мне понадобится для анализа всего файла?

Обновить:

Функция командной строки ssconvert BigFile.xlsx BigFile.csvвыдает те же ошибки, что и Gnumeric (неудивительно, потому что Gnumeric использует ssconvert)

1

1 ответ на вопрос

1
Aaron Digulla

Возможно, но вам понадобится ручная работа.

Файлы xslx на самом деле являются файлами ZIP с данными XML. ТАК просто распакуйте файл и загляните внутрь. Формат - это не то, что здравомыслящий ум легко поймет, но должна быть возможность открывать файлы листов, искать Rowэлементы и удалять все после первых нескольких сотен.

Кроме того, вы можете попробовать открыть файл с помощью Apache POI ; просто дайте Java 1 ГБ оперативной памяти, и это может работать.