Как оптимизировать словарь / список слов?

407
OKCarl

У меня есть копия 4,09 ГБ словаря / словаря crackstation.txt. Просто сейчас слова и цифры расположены в обычном порядке:

0123456789aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStT uUvVwWxXyYzZ 

Как мне переставить заказ на что-то вроде:

tTaAsShHwWiIoObBmMfFcCdDpPnNeEgGrRyYuUvVjJkKqQzZxX 1023985467 

Эта последовательность дает первые буквы английских слов в порядке популярности, от самых популярных (слева) до наименее популярных (справа)

0

1 ответ на вопрос

1
Xen2050

Используя некоторые инструменты, такие как grep, sed, awk и sort, вы можете реализовать некоторые ответы с этого другого сайта . Они включают (если вы хотели b, то d тогда все остальное нормально):

Вытяните строки в нужном порядке, начиная с первого, затем второго и т. Д.

grep '^b' myfile > outfile grep '^d' myfile >> outfile grep -v '^b' myfile | grep -v '^d' | sort >> outfile 

Сначала добавьте свой собственный «ключ сортировки», затем отсортируйте, а затем удалите его:

sed -e 's/^b/0&/' -e t -e 's/^d/1&/' -e 't' -e 's/^/2/' | sort | sed 's/^.//' 

Самый простой выглядит:

используйте такой язык, как Perl, Python или Ruby, который позволяет легко указать пользовательскую функцию сортировки.

perl -e 'print sort {($b =~ /^[bd]/) - ($a =~ /^[bd]/) || $a cmp $b} <>' python -c 'import sys; sys.stdout.write(sorted(sys.stdin.readlines(), key=lambda s: (0 if s[0]=="b" else 1 if s[0]=="d" else 2), s))' 

Или попробуйте awk (без объяснения, YMMV):

sort myfile | awk '$0 ~ /^b/ || $0 ~ /^d/ $0 !~ /^b/ && $0 !~ /^d/ { a[f++] = $0 } END { for (word = 0; word < f; word++) { print a[word] } }'