Windows нуждается в помощи для редактирования большого текстового файла для удаления дубликатов - объединить работу TXT на 50 ГБ +

604
DeathRival

У меня есть Windows 2012
32 ГБ ОЗУ I7 Процессор Prossesor 1 ТБ SSHD

у меня есть .txt файлы списков слов в строках txt файлы начинаются с 2GB до 50GB

какие инструменты или программы могут работать в таком большом размере / строках, чтобы объединить все файлы в 1 файл .txt, а затем работать в этом 1 файле .txt, который может быть 100 ГБ после того, как все объединено / объединено

удалить дубликаты строк с помощью CauseSinstive и не вылетать, не зависать и не зависать? я знаю, что задал вопрос, похожий на этот, но я не получил ничего простого

помогите мне, я не очень разбираюсь в кодах cmd, которые используют люди, поэтому, если возможно, кто-нибудь расскажет мне о программе, действительно может сделать это без проблем или с помощью cmd с легким объяснением для начинающих

как то, что мне нужно сделать по шагам и как это сделать в конце мне нужно что-то не разбить мой компьютер или быть очень медленным

я попытался emeditor до сих пор не может работать в 10 ГБ файла и он начал очень медленно, пожалуйста, помогите мне

1
Вы должны рассмотреть возможность выполнения этой работы с языком программирования, а не вручную. IQV 6 лет назад 2
Нереально задавать технические характеристики вашей системы, чтобы открыть 50 ГБ текстовых файлов в редакторе. Вы можете анализировать 50 ГБ текстовых файлов с помощью своей собственной программы, если вы не пытаетесь сделать это одним гигантским двоичным объектом. Ramhound 6 лет назад 0
Возможно, вам придется серьезно подумать об уменьшении размера некоторых файлов (* кашель * 50 ГБ), чтобы работать с ними, даже если вы их рекомбинируете позже. В этом вопросе были некоторые предложения для выполнения аналогичной задачи - - https://stackoverflow.com/q/25249516/3395469 Anaksunaman 6 лет назад 0
@DeathRival: см. Мое редактирование ниже, я добавил пошаговую инструкцию, чтобы решить вашу проблему. Не тестировал его с такими большими текстовыми файлами, так что попробуйте chloesoe 6 лет назад 0

2 ответа на вопрос

1
Joe6pack

Лучший инструмент для управления огромным TXT-списком слов для Windows: Unified List Manager (ULM)

УСМ

Вы можете сортировать, объединять, разбивать, удалять дубликаты и многое другое.

0
chloesoe

Вы уже спрашивали здесь: как объединить большие текстовые файлы размером 10 ГБ + в 1 текстовый файл и удалить дубликаты строк из этого 1 текстового файла самым быстрым способом? ,

Я все еще рекомендовал бы загрузить Linux (Ubuntu или Mint или что-то еще) и записать его на CD или создать загрузочный USB-накопитель, а затем начать без установки. Тогда вы можете сделать то, что я рекомендовал здесь https://superuser.com/a/1250792/715210

Или вы устанавливаете Windows 10 Linux Bash Shell: https://www.howtogeek.com/249966/how-to-install-and-use-the-linux-bash-shell-on-windows-10/
Я думаю, что команды здесь https://superuser.com/a/1250792/715210 должно работать, это действительно базовые команды Linux.

Изменить: я проверил его с Win10 Pro (вы не упомянули вашу ОС). Шаг за шагом установите Windows Linux Bash и объедините файлы aa.txt и bb.txt в newfile.txt с удалением дубликатов (при условии, что ваши файлы находятся в C: \ temp):

  1. Win+ iоткрыть настройки
  2. Обновление и безопасность -> для разработчиков: выберите режим разработчика
    • режим разработчика будет установлен
  3. Win+ R-> «панель управления» -> ввод
  4. Программы и функции слева "Программы" или "Активация Windows"
    • Выберите «Подсистема Windows для Linux Beta»
  5. перезагружать
  6. Нажмите, Winзатем найдите «bash» и откройте
  7. Есть несколько подсказок, на которые вы должны ответить «Y», и вас попросят указать имя пользователя с паролем.
    • Баш установлен сейчас.
    • ваш диск C: теперь доступен в / mnt / c.
  8. напишите cd /mnt/c/temp/(или ваш путь), затем нажмите Enter
  9. записывать cat aa.txt bb.txt | sort -u > newfile.txt
    • если это не работает, вы можете сначала попытаться объединить файлы в один файл, а cat aa.txt bb.txt > tempfile.txtзатем выполнить команду сортировки, например:sort -u tempfile.txt > newfile.txt