Skip to content

Очистка и оптимизация HTML-файлов «Тильды»: удаление ненужных атрибутов, стилей и пустых тегов

License

Notifications You must be signed in to change notification settings

baslie/Tilda-HTML-Cleaner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Tilda HTML Cleaner

Python-скрипт для очистки HTML-файлов конструктора «Тильды» от ненужных атрибутов, стилей, скриптов и пустых тегов с поддержкой кириллицы.

🔧 Возможности

  • Автоматическая обработка всех HTML-файлов в директории скрипта
  • Полная поддержка кириллицы и различных кодировок
  • Итеративная очистка вложенных пустых элементов
  • Подробная статистика обработки файлов
  • Безопасная обработка с защитой от ошибок

🧹 Что удаляется

Атрибуты и элементы:

  • data-* атрибуты
  • style атрибуты
  • class атрибуты
  • field атрибуты
  • bis_skin_checked атрибуты
  • <style> блоки целиком
  • <script> блоки целиком
  • <svg> элементы
  • HTML комментарии <!-- -->

Пустые теги:

  • <div></div>
  • <span></span>
  • <p></p>
  • <a></a>
  • <li></li>
  • <ul></ul>, <ol></ol>
  • <table></table>, <tr></tr>, <td></td>, <th></th>
  • <h1></h1> - <h6></h6>

🚀 Использование

  1. Скачайте файл html_cleaner.py
  2. Поместите его в папку с HTML-файлами, которые нужно очистить
  3. Запустите скрипт:
python tilda_html_cleaner.py

или двойным кликом по файлу в Windows.

💡 Принцип работы

Скрипт работает в несколько этапов:

  1. Поиск файлов: Находит все .html и .htm файлы в текущей директории
  2. Определение кодировки: Автоматически определяет кодировку каждого файла
  3. Основная очистка: Применяет правила удаления атрибутов и блоков
  4. Итеративная очистка: Многократно удаляет пустые элементы до стабилизации
  5. Сохранение: Сохраняет очищенные файлы в UTF-8 в новые файлы с суффиксом _copy

Пример до и после:

До:

<div class="container" style="margin: 10px;" data-toggle="modal">
    <p class="text" style="color: red;">
        <!-- Комментарий --> <span></span> </p>
    <script>
    console.log('test');
    </script>
</div>

После:

<div>
    <p></p>
</div>

После дополнительных итераций пустые элементы также будут удалены.

⚙️ Технические детали

  • Язык: Python 3.6+
  • Зависимости: Только стандартная библиотека
  • Поддерживаемые кодировки: UTF-8, CP1251, UTF-8-BOM, Latin-1
  • Максимальное количество итераций очистки: 10 (защита от зацикливания)

🔒 Безопасность

  • Скрипт создает резервные копии? ДА - смотрите файлы с суффиксом _copy
  • Рекомендуется сделать резервную копию файлов перед использованием
  • Скрипт обрабатывает только файлы в своей директории (не рекурсивно)

📋 Системные требования

  • Windows 10 (основная платформа)
  • Python 3.6 или выше
  • Права на запись в директории со скриптом

🐛 Известные ограничения

  • Может некорректно обрабатывать невалидный HTML
  • Не создает резервные копии файлов
  • Обрабатывает только файлы в директории скрипта (подпапки игнорируются)

🤝 Вклад в проект

Приветствуются предложения по улучшению! Создавайте Issues или Pull Requests.

📄 Лицензия

Этот проект распространяется под лицензией MIT - подробности в файле LICENSE.

📊 Статистика использования

После запуска скрипт покажет:

  • Количество найденных файлов
  • Кодировку каждого файла
  • Размер до и после очистки
  • Процент уменьшения размера файла
  • Общую статистику обработки

About

Очистка и оптимизация HTML-файлов «Тильды»: удаление ненужных атрибутов, стилей и пустых тегов

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages