Издательства внедряют ИИ-системы для выявления запрещенных материалов в книгах

Крупные российские издательства выделяют значительные ресурсы на разработку и применение систем искусственного интеллекта для обнаружения контента, подпадающего под законодательные ограничения. Цель таких мер — выявление упоминаний наркотических веществ, тем чайлдфри, а также информации, связанной с ЛГБТ*-тематикой. По данным издания «Осторожно, новости», в издательской группе «Эксмо-АСТ» подтвердили активное использование подобных технологий.

— Издательство затратило огромные средства на борьбу с экстремистской (ЛГБТ) литературой, на анализ ассортимента с 1990 года для маркировки упоминаний наркотиков и по профилактике в книгах тем чайлдфри и других, — сообщили в «Эксмо-АСТ».

Процесс проверки текстов включает многоступенчатую модель. На первом этапе система сегментирует контент на смысловые фрагменты, которые затем анализируются тремя специализированными ИИ-агентами. Эти агенты ориентированы на выявление сексуального содержания, наркотических упоминаний и признаков экстремизма, включая нацизм и другие противозаконные проявления. На данной стадии фиксируются все потенциально подозрительные фрагменты, даже если они могут быть ложными срабатываниями, например, при упоминании слова «героиня» вне контекста наркотиков.

После этого результаты передаются агенту второго уровня, который исключает очевидные ложные срабатывания, анализируя контекст. В случае слова «героиня» он распознает его как персонажа, если оно сопровождается фразами вроде «героиня не пила и не курила». Завершающий этап предусматривает юридическую оценку, где нейросеть классифицирует нарушения: является ли это пропагандой, существует ли риск пропаганды или это просто упоминание, требующее соответствующей возрастной маркировки. Материалы, содержащие минимальный риск, направляются на проверку живому редактору.

Помимо основной проверки, функционируют другие ИИ-агенты, которые взаимодействуют с актуализируемыми перечнями запрещенных организаций и иноагентов. Нейросеть автоматически обрабатывает государственные информационные ресурсы, обновляет списки и способна распознавать различные варианты упоминаний, например, «Инста» для Instagram**. При обнаружении подозрительного контента сексуального характера он направляется специализированным агентам для детекции педофилии, ЛГБТ* или тем чайлдфри. Проверка на педофилию проходит дополнительную верификацию. Отдельные агенты также выявляют нецензурную лексику, классифицируя ее на «чистый мат» и «просторечные выражения», и помогают в определении возрастного рейтинга книги, например, 18+.

В будущем издательство планирует внедрить интерактивную функцию, которая позволит редакторам формировать запросы непосредственно к тексту книги, например, «Найти все упоминания слова „мак“».

*Признана экстремисткой и запрещена в России

**Соцсеть запрещена, принадлежит корпорации Meta, которая признана экстремистской организацией и запрещена в

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.

Комментарии 0

Зарегистрируйтесь или , чтобы оставлять комментарии.