Я думаю, что проблема здесь в том, что в Excel есть ограничение в 1 048 576 строк, а в вашем наборе данных 13 миллионов записей. Каждая запись должна быть на отдельной строке.
Если вы работаете в Windows, вы можете использовать программу NotePad ++ для поиска и удаления дубликатов. Ответ на StackOverflow предлагает использовать либо регулярное выражение, либо плагин.
Я бы использовал опцию регулярного выражения. Ниже приводится краткое резюме ответа SO.
- Убедитесь, что каждая запись в одной строке
- Откройте поиск и замените
- Выберите режим регулярного выражения
- Введите выражение
^(.*?)$\s+?^(?=.*^\1$)
в поле поиска - Оставьте запасную коробку пустой
- Нажмите Заменить все
Если эти данные являются экспортом из базы данных, вы можете подумать об изменении оператора SQL до экспорта, добавив DISTINCT
после SELECT
. Смотрите здесь для примера.