Python-скрипт для очистки HTML-файлов конструктора «Тильды» от ненужных атрибутов, стилей, скриптов и пустых тегов с поддержкой кириллицы.
- Автоматическая обработка всех HTML-файлов в директории скрипта
- Полная поддержка кириллицы и различных кодировок
- Итеративная очистка вложенных пустых элементов
- Подробная статистика обработки файлов
- Безопасная обработка с защитой от ошибок
data-*атрибутыstyleатрибутыclassатрибутыfieldатрибутыbis_skin_checkedатрибуты<style>блоки целиком<script>блоки целиком<svg>элементы- HTML комментарии
<!-- -->
<div></div><span></span><p></p><a></a><li></li><ul></ul>,<ol></ol><table></table>,<tr></tr>,<td></td>,<th></th><h1></h1>-<h6></h6>
- Скачайте файл
html_cleaner.py - Поместите его в папку с HTML-файлами, которые нужно очистить
- Запустите скрипт:
python tilda_html_cleaner.py
или двойным кликом по файлу в Windows.
Скрипт работает в несколько этапов:
- Поиск файлов: Находит все
.htmlи.htmфайлы в текущей директории - Определение кодировки: Автоматически определяет кодировку каждого файла
- Основная очистка: Применяет правила удаления атрибутов и блоков
- Итеративная очистка: Многократно удаляет пустые элементы до стабилизации
- Сохранение: Сохраняет очищенные файлы в UTF-8 в новые файлы с суффиксом
_copy
До:
<div class="container" style="margin: 10px;" data-toggle="modal">
<p class="text" style="color: red;">
<!-- Комментарий --> <span></span> </p>
<script>
console.log('test');
</script>
</div>
После:
<div>
<p></p>
</div>
После дополнительных итераций пустые элементы также будут удалены.
- Язык: Python 3.6+
- Зависимости: Только стандартная библиотека
- Поддерживаемые кодировки: UTF-8, CP1251, UTF-8-BOM, Latin-1
- Максимальное количество итераций очистки: 10 (защита от зацикливания)
- Скрипт создает резервные копии? ДА - смотрите файлы с суффиксом
_copy - Рекомендуется сделать резервную копию файлов перед использованием
- Скрипт обрабатывает только файлы в своей директории (не рекурсивно)
- Windows 10 (основная платформа)
- Python 3.6 или выше
- Права на запись в директории со скриптом
- Может некорректно обрабатывать невалидный HTML
- Не создает резервные копии файлов
- Обрабатывает только файлы в директории скрипта (подпапки игнорируются)
Приветствуются предложения по улучшению! Создавайте Issues или Pull Requests.
Этот проект распространяется под лицензией MIT - подробности в файле LICENSE.
После запуска скрипт покажет:
- Количество найденных файлов
- Кодировку каждого файла
- Размер до и после очистки
- Процент уменьшения размера файла
- Общую статистику обработки