Как получить случайный раздел в середине огромного файла?

Question

Как получить случайный раздел в середине огромного файла?

1650

WilliamKF 2011-04-23 в 17:57

У меня огромный лог-файл размером около 3,5 ГБ, и я хотел бы отобрать случайные разделы в середине, скажем, 10 МБ для отладки того, что делает мое приложение.

Я мог бы использовать команды head или tail, чтобы получить начало или конец файла, как я могу получить произвольную часть от середины файла? Я думаю, я мог бы сделать что-то подобное, head -n 1.75GB | tail -n 10MBно это кажется неуклюжим, и мне нужно было бы определить номера строк для средней точки файла, чтобы получить количество строк 1,75 ГБ и 10 МБ.

2

3 ответа на вопрос

6

4

user1278519 2013-02-22 в 08:48

You can use use tail, but by specify a byte offset.

tail -c +$START_BYTE $file | head -c $LENGTH > newfile

That way tail can jump directly to the starting point (without counting new lines) and once head matches the correct length, it stops running.

Хороший. Это работает с произвольными смещениями и размерами байтов, которые `dd` не может сделать. Mike 9 лет назад 0

@ Майк, разве нет? (GNU) `dd` имеет опции` _bytes`. Или вы можете просто сделать `dd bs = 1`, но это может быть не очень эффективно. Karel Vlk 6 лет назад 0

1

Keith 2011-04-23 в 18:33

Вам просто нужно написать небольшую программу, чтобы найти какое-то случайное место и прочитать некоторое количество строк.

Пример на Python (читает одну строку, но вы можете изменить ее):

def get_random_line(): """Return a randomly selected line from a file.""" import random fo = open("/some/file.txt") try: point = random.randrange(fo.size) fo.seek(point) c = fo.read(1) while c != '\n' and fo.tell() > 0: fo.seek(-2, 1) c = fo.read(1) line = fo.readline().strip() finally: fo.close() return line

Accepted Answer · 2011-04-23 23:43:35

kmkkmk 2011-04-23 в 23:43

$ dd if=big_file.bin skip=1750 ibs=1MB count=10 of=big_file.bin.part

Вы можете потратить некоторое время на чтение и понимание дд.

Поскольку `dd` не знает строк, вы можете захотеть обрезать первую и последнюю строки, чтобы были включены только полные строки, например:` dd ... | голова -n-1 | tail -n + 2` или с `sed`:` dd ... | sed '1d; $ D' `. Thor 11 лет назад 0

Как получить случайный раздел в середине огромного файла?

3 ответа на вопрос

Похожие вопросы