Html-архив состоит из набора html-страниц со связанным носителем (читай: изображения и простой javascript).
CHM имеет указание, какая страница является «главной» страницей, которая обычно является некоторой обзорной страницей. Кроме того, он имеет оглавление (TOC), которое представляет собой дерево узлов, указывающих на HTML-файлы. Прогулка по дереву дала бы более или менее линейный порядок.
Но страница по умолчанию может не быть первой страницей оглавления или вообще в оглавлении, и не все страницы могут быть в оглавлении. В этом случае нет порядка, который можно было бы обнаружить с помощью автоматических средств.
Извлечение CHM с помощью общего инструмента декомпиляции даст вам кучу htmls, .hhk и .hhc. .Hhc - это оглавление в форме XML. Hhk - это индекс, но он вам сейчас не нужен. Страница по умолчанию находится во внутреннем файле и обычно не видна после извлечения (используйте свойства инструментов chm)
Помимо определения порядка, существует собственно само слияние. Это может быть сложно, но практические обходные пути могут быть импортировать их в офис с помощью некоторых сценариев.
Я думаю, что способный сценарист мог бы осуществить это, но это не тривиально.