Это заголовок файла / магический номер?

2104
Hammer Bro.

У меня есть 120 000 файлов (на самом деле, гораздо больше; это просто произвольное подмножество) неизвестного типа. Linux fileне идентифицирует их (не обязательно, что они обязательно являются файлами Linux), равно как и другие методы, которые я пробовал. Есть только две подсказки о них, которые у меня есть на данный момент. Во-первых, я подозреваю, что используется некоторое сжатие - у меня есть метаданные, которые утверждают, что размеры файлов всегда на несколько больше, чем то, что я наблюдаю.

Другое дело, что в 100 000 из этих файлов первые 16 байтов всегда:

ff ee ee dd 00 00 00 00 01 00 00 00 00 00 00 00 

Это действительно похоже на заголовок файла / магическое число для меня, но я просто не могу его разместить. Кто-нибудь знает, какие файлы это будет указывать? Кроме того, может ли кто-нибудь убедить меня, что эти подозрительно распространенные байты, безусловно, не указывают на конкретный тип файла?

ОБНОВИТЬ

Я не знаю точных деталей обратного проектирования, но большинство файлов в нашем случае - это почтовые индексы после того, как первые 29 (или около того) байтов игнорируются. Таким образом, на практике проблема решена (мы знаем, как обрабатывать файлы), но в теории вопрос все еще остается без ответа - я не знаю, какое приложение обычно добавляет около 29 байтов к своим zip-файлам. [Я не уверен, должен ли я оставить вопрос открытым или нет на данном этапе.]

4
Что именно вы подразумеваете под * у меня есть метаданные, в которых утверждается, что размеры файлов всегда на несколько порядков больше, чем я наблюдаю. *? Dennis 11 лет назад 0
Я предполагаю, что он имеет в виду, что эти размеры были прочитаны из другого канала (например, в базе данных). Mechanical snail 11 лет назад 0

1 ответ на вопрос

3
Max

Может быть, вы попытаетесь использовать TrID для некоторых из этих файлов
http://mark0.net/soft-trid-e.html
С сайта TrID:

TrID - это утилита, предназначенная для идентификации типов файлов по их двоичным сигнатурам. Хотя есть подобные утилиты с жестко закодированной логикой, у TrID нет фиксированных правил. Вместо этого он расширяемый и может быть обучен распознавать новые форматы быстрым и автоматическим способом.

TrID имеет множество применений: определить, какой тип файла был отправлен вам по электронной почте, помощь в криминалистическом анализе, поддержка в восстановлении файлов и т. Д.

TrID использует базу данных определений, которые описывают повторяющиеся шаблоны для поддерживаемых типов файлов. Поскольку это подлежит очень частому обновлению, оно доступно в виде отдельного пакета. Просто скачайте TrID и этот архив и распакуйте в одну папку ...
...
...

Обновление
После прочтения вашего обновления о том, что это Zip-файлы с добавленными перед ними 29 байтами, может быть, эти предварительно добавленные байты взяты из своего рода «сбоя» из-за способа получения этих файлов.

Пример 1:
Возможно, эти файлы были извлечены из резервной копии большого одного файла файлового сервера (Например, если вы делаете резервное копирование сервера, используя NTBackup в одном файле, NTBackup может фактически предшествовать некоторым атрибутным данным перед данными содержится в файлах)

Пример 2:
возможно эти файлы были извлечены из БД, где они хранились как объект BLOB

Пример 3:
возможно, эти файлы были извлечены из образа RAW CD / DVD (предварительно добавленные байты могут исходить из неправильной интерпретации смещения файла / файловой системы)

Существует бесконечное количество гипотез ... возможно, если вы знаете, откуда эти файлы, вы можете провести тест / проверку, чтобы проверить, есть ли утилита / программное обеспечение / инструмент / БД / сервер, который архивирует ZIP-файлы в некоторых другая структура файла / данных, предваряющая эти 29 байтов.

Интересная утилита, но она, похоже, тоже не знает. Hammer Bro. 11 лет назад 0