Как бороться с фейками в Сети. KiT

Фейковые новости наносят ущерб предприятиям — под прицелом кампаний по дезинформации могут оказаться любые отрасли. Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева фейков.

Сегодня происходят коренные изменения в общении между людьми — бум социальных сетей перевел общение в цифровую плоскость. Больше половины жителей планеты регулярно читают новости в социальных сетях и делятся ими. Бурный рост использования социальных сетей в сочетании с бесконтрольной публикацией и воспроизведением цифрового контента привел к росту распространения недостоверных сведений, передаваемых в неструктурированной форме (текст, изображения, видеоролики и т. п.) через рассылки, чаты, веб-страницы, социальные сети, опросы и пр. Проверка истинности такого контента может быть достаточно трудоемкой и потребовать много времени. Фейковые новости и искаженные сведения быстро распространяются, негативно влияя на процессы в целых отраслях экономики и в обществе в целом: здравоохранение и вакцинация, политика и демократия, производство пищевых продуктов и сельскохозяйственный сектор, фондовые рынки и т. д.

Понятие «фейковая новость» имеет ряд определений, общая черта которых — намерение ввести в заблуждение и распространить ложные сведения о происходящем в мире для получения какой-либо выгоды (рис. 1) или насаждения определенных идей и мнений. Фальшивые новости могут быть представлены в форме публикаций под заманчивыми («кликбейтовыми») заголовками, в виде пропаганды, «авторского мнения», юмора и сатиры и т. д.

Как распространители фейковых новостей заставляют аудиторию поверить в них? Психологи, исследующие социальные сети, называют соответствующие приемы «максимизацией влияния» , широко используемой для достижения широкого охвата аудитории. Наибольшее распространение в первую очередь получают негативно окрашенные новости, поскольку именно негативные чувства запоминаются лучше позитивных: информация о различного рода угрозах, публикации на тему секса, факты, вызывающие отвращение, а также события, опровергающие общепринятые представления и идущие вразрез с привычным порядком вещей. Кроме того, фальсификаторы пользуются тем, что люди обычно больше верят сведениям, соответствующим их убеждениям, приятным для них лично (например, «четырехдневная рабочая неделя») либо им уже знакомым .

Рис. 1. Получение финансовой выгоды с помощью фейковых новостей

Фейки о питании

Верить фейкам, например, на темы из сферы здравоохранения и сельского хозяйства людей нередко заставляет нехватка знаний и понимания основ работы этих отраслей. Фальшивки распространяются главным образом за счет «сознательности» представителей какой-либо социальной группы. Так, родители считают своим долгом уведомить других родителей о вредных продуктах или привычках, ставших известными им со слов «экспертов», из публикаций в Интернете и т. п., как это произошло, к примеру, с движением противников прививок.

Если говорить о сельскохозяйственной продукции, то сегодня бытует масса противоречивых убеждений о здоровом и нездоровом питании. Основная причина путаницы — ложная информация в двух формах: пищевая «мода» (то есть безосновательная вера в то, что употребление или неупотребление в пищу каких-то продуктов, их сочетаний или добавок может лечить заболевания, благотворно влиять на здоровье или способствовать быстрому похудению) и аналогичная дезинформация, распространяемая с целью получения выгоды . Характерный пример пищевой «городской легенды» — слух об искусственном рисе, циркулирующий, по сведениям информационного телеканала BBC, еще с 2010 года и зародившийся в Китае: утверждается, что при употреблении в пищу трех чашек такого риса человек съедает такое же количество пластика, какое содержит полиэтиленовый пакет. Слух оказался таким правдоподобным, что когда в 2016 году он достиг африканских социальных сетей, то нигерийские таможенники конфисковали 2,5 тонны натурального риса. Неменьшую популярность приобрело опубликованное в Facebook видео о домашнем тестировании пищевых продуктов, где мороженое предлагалось проверять в стиральной машине, детское питание — путем смешивания с песком, а сыр — добавлением бытовой химии. Ролик набрал около 100 млн просмотров, 500 тыс. лайков и 170 тыс. комментариев. Им успели поделиться около 3 млн раз, после чего по инициативе Американского управления по контролю пищевых продуктов и медикаментов видео было удалено, а в отношении Facebook начались проверки.

Скандалы из-за распространения фейковых новостей могут привести к социально-экономическому спаду в связи с ростом числом людей, не доверяющих правительству, ученым, индустрии, фермерам и производителям.

Борьба с фейковыми новостями

До недавнего времени в редакциях крупных СМИ фальшивые новости вычисляли вручную: редакторы проверяли факты до публикации, независимые эксперты — после нее . Такие проверки выполняют как сами службы новостей, так и специализированные организации — например, в США к ним относятся FactCheck, PolitiFact и FullFact. Широкое распространение новостей через социальные сети и негативное влияние массовой дезинформации на общество заставило исследователей обратиться к новым методам распознавания фальшивок с помощью технологий больших данных и машинного обучения. Современные автоматизированные системы анализа новостей, как правило, работают по одному из трех принципов:

Анализ стиля текста, а не содержания. Суть метода в том, что фальсификаторы, желая ввести читателя в заблуждение, пользуются определенными приемами, чтобы навязать желаемую идею и при этом не быть пойманными на лжи. Это проявляется в определенных стилистических особенностях, не всегда заметных человеку: показателями фальсификации могут служить определенные частота и закономерность употребления отрицаний, местоимений и союзов, а также уровень словарного запаса и сложность текста.

Анализ распространения. Метод строится на использовании специальных моделей, напоминающих модели эпидемий инфекционных заболеваний и позволяющих предсказывать, как будет распространяться дезинформация.

Анализ пользовательской активности. Метод заключается в оценке участия читателей в создании и распространении фейковых новостей. Пользователи делятся на два класса: «злоумышленники», получающие выгоду от создания и распространения фейков, и обычные пользователи, которые распространяют фальшивки без конкретного намерения, как правило, одновременно со злоумышленниками.

Рис. 2. Схема распознавания фейковых новостей

Оценка стиля: семантический анализ и машинное обучение

Сегодня доступен ряд сервисов, которые с помощью моделей машинного обучения выполняют лингвистический анализ заголовков, текста, мультимедиаконтента, метаданных и других параметров. В ходе тестирования таких сервисов (FakeBox, FightHoax, TrulyMedia, SocialTruth и др.) достигалась точность более 95%. Разработанный в МТИ тест Giant Language Model Test, действующий по принципу статистического анализа и сравнения с опорными данными, с точностью 72% распознает тексты, сгенерированные машиной. Подобные системы (рис. 2) в основном работают по принципу поиска признаков специфического стиля написания, сенсационных заголовков и пр., сравнивая и соотнося их с текстами из уже размеченных наборов данных. Кроме того, такие сервисы могут выполнять поиск аккаунтов или никнеймов, в конечном счете принадлежащих уже проявившим себя авторам фальшивок. В результате работы системы входной контент классифицируется как достоверный или ложный.

Статистический анализ может основываться, например, на анализе общего числа слов, среднем количестве букв в словах, частоте употребления различных слов, количестве неповторяющихся слов. Возможен поиск синтаксических особенностей: частота употребления служебных слов, особенности пунктуации, встречаемость различных частей речи. Показателем достоверности могут служить домен-специфичные элементы текста: цитаты, внешние ссылки, характер иллюстраций. Сам анализ может выполняться при помощи семантических технологий и классификаторов на основе алгоритмов глубинного обучения. При семантическом анализе оценивается смысл синтаксических структур — словосочетаний, фраз, предложений, абзацев, текста в целом — с отбрасыванием признаков, специфичных для конкретного лингвистического и культурного контекста. Обычно это предварительный этап обработки текста, выполняемый для подготовки к дальнейшему анализу, но, в отличие от стандартной очистки от посторонних символов и строк, здесь сохраняются первоначальные отношения между объектами: людьми, событиями и др. При такой предварительной обработке может формироваться «сеть» из слов и их взаимосвязей, которая выражает смысл текста и сама по себе подходит для анализа на этапе классификации, когда тексту назначаются метки или категории в зависимости от содержания. Данная схема применяется для решения многих задач, в том числе при анализе тональности высказываний, при тематической разметке, распознавании спама и определении намерений.

Перечислим алгоритмы машинного обучения, используемые для классификации фейковых новостей с учетом стиля текста.

Метод опорных векторов. Позволяет существенно уменьшить потребность в размеченных обучающих экземплярах при различных типах обучения. Классификаторы этого типа демонстрируют высокую эффективность на новых данных, достигая точности более 90%.

Метод k-ближайших соседей. Алгоритм обучения на основе сходства, который можно применять для различных задач классификации текстов, по эффективности сопоставим с методом опорных векторов.

Логистическая регрессия. Один из ключевых аналитических инструментов, применяемых в обществознании и естественных науках. В обработке естественного языка применяется для контролируемого обучения классификаторов, принимающих решение путем сравнения входных данных с опорными.

Случайный лес. Метод классификации, предусматривающий выращивание большого «ансамбля» решающих деревьев и выбора тех, которые обеспечивают наилучшие результаты.

Наивная байесовская модель. Такая модель популярна в качестве несложного инструмента создания вероятностных классификаторов фейковых новостей, демонстрирующего достаточную эффективность в сложных реалистичных условиях.

Искусственные нейронные сети. Нейросети состоят из узлов, выполняющих вычисления: искусственные нейроны комбинируют входные данные с весовыми коэффициентами, назначая полученным сведениям вес с учетом выполняемой сетью задачи. Традиционные алгоритмы нейросетей хуже справляются с классификацией текстов, так как не запоминают предыдущую историю обработки данных, поэтому в современных системах анализа отдают предпочтение глубинным нейронным сетям.

Глубинное обучение. Глубокие нейронные сети похожи на обычные, но состоят из множества слоев. Для распознавания фейковых новостей предложен ряд архитектур таких сетей, в том числе сверточные (convolutional neuronal network, CNN), требующие минимального количества предварительной обработки, числа параметров и объема обучения. Кроме того, используются рекуррентные нейросети, динамически меняющиеся со временем и способные запоминать новую лексическую и семантическую информацию. Также применяются иерархические сети внимания (hierarchical attention network, HAN), фиксирующие определенные характеристики структуры документа. Вначале они выстраивают репрезентации предложений, а затем на их основе формируют репрезентацию всего документа. При этом используется факт различной степени информативности разных слов и предложений.

Все эти методы могут демонстрировать превосходные результаты, но лучшую эффективность в большинстве случаев (как при распознавании фейковых новостей, так и в других задачах классификации) показывают логистическая регрессия, байесовские модели и глубинное обучение, хорошо проявившее себя на разных наборах данных и при работе с различными схемами обработки. Сверточные сети чаще демонстрируют более точные результаты на разнородных наборах данных, а HAN — при обработке обширных наборов. Обычно CNN позволяют получить точность свыше 90%, причем этот показатель можно улучшить, если задействовать схемы, компенсирующие отсутствие запоминания предыдущих событий. Одна из таких схем — «долгая краткосрочная память». Это разновидность рекуррентных нейронных сетей с циклами и блоками, которые позволяют запоминать значения в течение некоторого периода времени, что позволяет прослеживать связь между словами, которыми начинается и оканчивается анализируемый текст.

Доступные корпусы уже размеченных фейковых и реальных новостей повышают точность работы классификаторов независимо от применяемого метода машинного обучения. К общедоступным наборам данных такого рода можно отнести: Kaggle — базу фейковых новостей, содержащую несколько тысяч вхождений; BuzzFeed — обновляемый перечень сайтов, публикующих сфабрикованные сведения; Kaidmml — нормализованные сборники фейковых новостей; LIAR — набор тестовых данных, содержащий 12,8 тыс. проверенных высказываний различных спикеров на разные темы.

***

Фейки и искажение сведений в новостях по-разному влияют на жизнь людей, при этом от кампаний дезинформации не защищены никакие сферы жизни и отрасли экономики. Фейковые новости наносят ущерб предприятиям различных секторов, даже когда сами эти предприятия не являются непосредственным объектом клеветы. Подрыв доверия к властям, науке и здравоохранению приводит к падению продаж и стоимости акций, негативным социальным последствиям.

С учетом масштабов распространения ложной информации, как никогда актуальна потребность в быстрых и действенных решениях в ходе борьбы с фейками. Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева дезинформации. Но, чтобы избежать предвзятости, не стоит доверять задачу распознавания ложных сведений какому-либо одному специализированному центру или алгоритму верификации. Даже самые сложные модели классификации, основанные на глубинном обучении, оптимальны лишь на момент создания, и их точность со временем уменьшается по мере появления новых фальшивок и изменения стиля их написания. Задачу децентрализации можно решить, например, с помощью распределенных архитектур верификации контента на основе блокчейна. А проблему устаревания моделей можно преодолеть с помощью открытых фреймворков, обеспечивающих непрерывное обучение, а также благодаря повышению модульности и адаптивности архитектуры автоматических сервисов верификации контента.

1. S. Banerjee, M. Jenamani, D. K. Pratihar. A survey on influence maximization in a social network. 2018. arXiv:1808.05502.

2. A. Acerbi. Cognitive attraction and online misinformation // Palgrave Commun. — 2019. — vol. 5. Art. no. 15.

3. Position of the American dietetic association: Food and nutrition misinformation // J. Amer. Dietetic Assoc. — 2006. — N. 4. — P. 601–607.

4. S. Cazalens, P. Lamarre, J. Leblay, I. Manolescu, X. Tannier. A content management perspective on fact-checking. Proc. Companion Web Conf. — 2018. — P. 565–574.

Константинос Деместихас () — научный сотрудник; Константина Ремунду () — специалист по анализу данных; Евгения Адамопулу () — старший научный сотрудник, Афинский политехнический университет.

Konstantinos Demestichas, Konstantina Remoundou, Evgenia Adamopoulou, Food for Thought: Fighting Fake News and Online Disinformation, IT Professional. March/April 2020, IEEE Computer Society. All rights reserved. Reprinted with permission.

Безопасность,машинное обучение,фейк, дезинформация,Security, machine learning, fake, disinformation

Свежий выпуск Важные темы ИТ-календарь
2 июня 2020 3 июня 2020 4 июня 2020 18 июня 2020 19 июня 2020 Популярные теги 19 апреля 2019 19 апреля 2019

«Открытые системы» - ведущее российское издательство, выпускающее широкий спектр изданий для профессионалов и активных пользователей в сфере ИТ, цифровых устройств, телекоммуникаций, медицины и полиграфии, журналы для детей.