Вы можете попробовать детектор плагиата . Плагиат и обновления не имеют абсолютно одинакового сходства, поэтому могут давать или не давать полезные результаты, но есть из чего выбирать, так что если один не поможет, другой может. У меня нет конкретной программы, чтобы рекомендовать; Вы могли бы попытаться спросить любого учителя или профессора, которого вы знаете (предпочтительно за пределами компьютерных наук, так как они более вероятно знакомы с плагиатом программирования, чем с плагиатом естественного языка).
Найдите почти одинаковые файлы в папке
У меня есть папка, полная файлов, с несколькими дублирующимися файлами. К сожалению, в ряде случаев одна версия является обновленной версией другой, поэтому прямое совпадение байтов не обнаруживает дублирование. (Я посмотрел на этот вопрос, но все, на что я смотрел из списка, похоже, проводят только сравнение байтов ...)
Существуют ли какие-либо (Windows) приложения для дедупликации, которые могут сопоставить сходство и указать пользователю файлы для проверки? Бесплатное программное обеспечение это хорошо, бесплатная пробная версия приемлема. Даже просто список сходств, чтобы сказать мне, где искать, вероятно, будет работать.
РЕДАКТИРОВАТЬ: Извините, я должен был упомянуть; это текстовые файлы, в основном DOC, PPT и PDF. Наиболее вероятным изменением является контент, но форматирование также может отличаться. Хотя бы просто заметить изменения в тексте было бы полезно, хотя ...
3 ответа на вопрос
Я не знаю ни одного приложения, но если большая часть контента одинакова между версиями, вы можете выполнить поиск Windows по каталогу с параметром «слово или фраза в файле». Ваш запрос - это конкретная фраза, которая не меняется (или, по крайней мере, вы не думаете, что она меняется) во многом между версиями и довольно уникальна для этого конкретного документа / набора документов. Этот тип поиска должен работать для PDF, DOC и PPT, несмотря на то, что они не являются прямыми текстовыми файлами. Это не даст вам точного результата, который вы ищете, но если вы правильно выберете поисковую фразу и ваш контент между версиями не сильно разнится, он должен работать довольно хорошо.
Ищите ssdeep и sdhash.
Я никогда не пробовал sdhash, но я читаю это лучше, чем ssdeep. В любом случае, оба предоставляют CLI, который позволяет вычислять нечеткие хеши и их соответствующие сходства.
Должно работать довольно хорошо для вашей цели.
PS: извините за краткость и отсутствие ссылок, но я мобильный банкомат.
Похожие вопросы
-
12
Как я могу синхронизировать папки между несколькими компьютерами в моей домашней сети?
-
10
Программное обеспечение для резервного копирования для Mac OS X
-
7
Какой самый популярный менеджер переносимых приложений?
-
-
5
Есть ли бесплатный плагин "AutoTune" для Audacity?
-
3
В поисках более простой альтернативы видеочату Skype
-
5
FontExplorer как приложение для Windows
-
9
DVD риппер для Windows
-
14
Regex инструмент для Linux
-
2
Менеджеры закачек для скачивания по локальной сети
-
6
Бесплатный инструмент для миграции разделов