Автомодерация и борьба со спамом силами ИИ

Rolzzandik · 6 Апр 2026

Всем дарова!

Последнее время классическая модерация форумов превращается в кошки-мышки со спамерами.
Обычные регулярки и черные списки нормально не работают, да и могут отсечь вполне легитимных пользователей
Спамеры используют резидентские прокси, спецсимволы, да и с приходом нейронок тексты перестали быть одинаковыми.

Кто-то из администраторов просто включает премодерацию на первые 3-5 сообщений, но это добавляет нагрузку на модераторов.

Как мне кажется, единственное решение данной проблемы - пользоваться тем же, что используют спамеры. ИИшками.

Плюс отдельная история с токсичностью - когда нужно отсечь откровенный хейт, но оставить живую дискуссию.
По итогу время уходит на ручную чистку

Кроме того, разговор про использование ИИ поднимался в этой теме:

У Вас недостаточно прав для просмотра ссылок. Вход или Регистрация

Есть и некоторые готовые решения, но насколько я понял они особую популярность не получили:
1. [Audentio] AI Moderation
2.

У Вас недостаточно прав для просмотра ссылок. Вход или Регистрация

Тут практически нет документации, надо получать доступ, куда-то писать и прочие моменты на которые многие забили

Поэтому я бы хотел узнать, какие возможные мои решения из предложенных заинтересуют здешнюю аудиторию.
Сразу для понимания - это не классические решения через большие языковые модели из разряда ChatGPT, Gemini и прочих.
Для классификации текста можно использовать достаточно легковесные BERT модели, которые практически ничего не жрут и их можно развернуть даже у себя на сервере.
В отличие от обычных фильтров (имею ввиду regex), такие модели анализируют смысл предложения целиком.
Что возможно реализовать:

Умный антиспам: распознавание скрытого рекламирования и фишинга.
Unicode детект: автоматический поиск попыток обмануть фильтры через замену букв.
Контроль токсичности: автоматическая маркировка агрессивных постов.
AI детект: выявление контента, сгенерированного нейросетями. (Моделей для детекта ИИ текста очень много, но как мне кажется - это избыточно и у них очень много ложных срабатываний)
NSFW-детект: автоматическое распознавание неприемлемого или шокирующего контента на изображениях.

Планирую сделать это в виде плагина с бэкендом (SaaS), но также думаю оставить ограниченный self-hosted вариант для тех, кто предпочитает все держать у себя на сервере.

Хочу понять, есть ли в этом смысл и будет ли это востребовано?
Если актуально - напишите, что именно хотелось бы автоматизировать в первую очередь. Если соберем группу заинтересованных, сделаю MVP и дам потестить.

Its · 6 Апр 2026

Rolzzandik написал(а):
Последнее время классическая модерация форумов превращается в кошки-мышки со спамерами.

Платное решение CleanTalk не пробовали?

Rolzzandik · 6 Апр 2026

Its, наверное я не совсем точно выразился своим небольшим вступлением в посте
CleanTalk - это полностью закрытое и платное решение без какой-либо возможности повлиять на его работу
Кроме того, насколько я знаю, он проверяет эвристиками и паттернами (ип, стоп слова и ссылки)

Я же предлагаю частично открытое решение (речь про self-hosted вариант) которое работает на базе ML и контекстого понимания сообщения
Ну и про токсичность и NSFW/AI детект в клинтолке тоже ничего нет

Its · 7 Апр 2026

Rolzzandik написал(а):
Its, наверное я не совсем точно выразился своим небольшим вступлением в посте
CleanTalk - это полностью закрытое и платное решение без какой-либо возможности повлиять на его работу
Кроме того, насколько я знаю, он проверяет эвристиками и паттернами (ип, стоп слова и ссылки)

Я же предлагаю частично открытое решение (речь про self-hosted вариант) которое работает на базе ML и контекстого понимания сообщения
Ну и про токсичность и NSFW/AI детект в клинтолке тоже ничего нет

Наверно да, понял

Автомодерация и борьба со спамом силами ИИ

Rolzzandik

Its

Rolzzandik

Its

Похожие темы

Мы ценим вашу конфиденциальность