Автомодерация и борьба со спамом силами ИИ

Rolzzandik

Проверенные
Сообщения
272
Решения
22
Реакции
363
Баллы
765
Всем дарова!

Последнее время классическая модерация форумов превращается в кошки-мышки со спамерами.
Обычные регулярки и черные списки нормально не работают, да и могут отсечь вполне легитимных пользователей
Спамеры используют резидентские прокси, спецсимволы, да и с приходом нейронок тексты перестали быть одинаковыми.

Кто-то из администраторов просто включает премодерацию на первые 3-5 сообщений, но это добавляет нагрузку на модераторов.

Как мне кажется, единственное решение данной проблемы - пользоваться тем же, что используют спамеры. ИИшками.

Плюс отдельная история с токсичностью - когда нужно отсечь откровенный хейт, но оставить живую дискуссию.
По итогу время уходит на ручную чистку

Кроме того, разговор про использование ИИ поднимался в этой теме:

Есть и некоторые готовые решения, но насколько я понял они особую популярность не получили:
1. [Audentio] AI Moderation
2.
Тут практически нет документации, надо получать доступ, куда-то писать и прочие моменты на которые многие забили

Поэтому я бы хотел узнать, какие возможные мои решения из предложенных заинтересуют здешнюю аудиторию.
Сразу для понимания - это не классические решения через большие языковые модели из разряда ChatGPT, Gemini и прочих.
Для классификации текста можно использовать достаточно легковесные BERT модели, которые практически ничего не жрут и их можно развернуть даже у себя на сервере.
В отличие от обычных фильтров (имею ввиду regex), такие модели анализируют смысл предложения целиком.
Что возможно реализовать:
  1. Умный антиспам: распознавание скрытого рекламирования и фишинга.
  2. Unicode детект: автоматический поиск попыток обмануть фильтры через замену букв.
  3. Контроль токсичности: автоматическая маркировка агрессивных постов.
  4. AI детект: выявление контента, сгенерированного нейросетями. (Моделей для детекта ИИ текста очень много, но как мне кажется - это избыточно и у них очень много ложных срабатываний)
  5. NSFW-детект: автоматическое распознавание неприемлемого или шокирующего контента на изображениях.
Планирую сделать это в виде плагина с бэкендом (SaaS), но также думаю оставить ограниченный self-hosted вариант для тех, кто предпочитает все держать у себя на сервере.

Хочу понять, есть ли в этом смысл и будет ли это востребовано?
Если актуально - напишите, что именно хотелось бы автоматизировать в первую очередь. Если соберем группу заинтересованных, сделаю MVP и дам потестить.
 
Its, наверное я не совсем точно выразился своим небольшим вступлением в посте
CleanTalk - это полностью закрытое и платное решение без какой-либо возможности повлиять на его работу
Кроме того, насколько я знаю, он проверяет эвристиками и паттернами (ип, стоп слова и ссылки)

Я же предлагаю частично открытое решение (речь про self-hosted вариант) которое работает на базе ML и контекстого понимания сообщения
Ну и про токсичность и NSFW/AI детект в клинтолке тоже ничего нет
 
Современный облачный хостинг провайдер | Aéza
Назад
Сверху Снизу