Как бороться с фейками в Сети

- КиТ :: Будь в СЕТИ!

Фейковые онлайн-публикации — насущная проблема общества. В чем причина веры в фальшивки и как с помощью машинного обучения и семантических технологий бороться с распространением дезинформации в Интернете?

Фейковые новости наносят ущерб предприятиям — под прицелом кампаний по дезинформации могут оказаться любые отрасли. Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева фейков.

Сегодня происходят коренные изменения в общении между людьми  —  бум социальных сетей перевел общение в цифровую плоскость.  Больше  половины  жителей  планеты регулярно читают новости в социальных сетях и делятся ими. Бурный рост использования социальных сетей в сочетании с бесконтрольной публикацией и воспроизведением цифрового контента привел к росту распространения недостоверных сведений, передаваемых в неструктурированной  форме (текст,  изображения, видеоролики и  т. п.)  через рассылки, чаты, веб-страницы, социальные сети, опросы и пр. Проверка истинности такого контента может быть достаточно трудоемкой и  потребовать  много времени. Фейковые новости и искаженные сведения быстро распространяются, негативно влияя на процессы  в целых отраслях экономики  и  в обществе в целом:  здравоохранение и вакцинация, политика и демократия,  производство пищевых продуктов  и сельскохозяйственный сектор, фондовые рынки и т. д.

Понятие «фейковая новость» имеет ряд определений, общая черта которых  —  намерение ввести в заблуждение и распространить ложные сведения о происходящем в мире для получения какой-либо выгоды (рис. 1) или насаждения  определенных идей и мнений.  Фальшивые новости могут быть представлены в форме публикаций под заманчивыми («кликбейтовыми») заголовками,  в виде  пропаганды, «авторского мнения», юмора и сатиры и  т. д. 

Как распространители фейковых новостей заставляют аудиторию поверить в них? Психологи, исследующие социальные сети, называют соответствующие приемы «максимизацией влияния» , широко  используемой  для достижения широкого охвата аудитории.  Наибольшее  распространение  в первую очередь  получают негативно окрашенные новости, поскольку  именно  негативные чувства запоминаются лучше позитивных: информация о различного рода угрозах, публикации на тему секса, факты, вызывающие отвращение, а также события, опровергающие общепринятые представления и идущие вразрез с привычным порядком вещей. Кроме того, фальсификаторы пользуются тем, что люди обычно больше верят сведениям, соответствующим их убеждениям, приятным для них лично (например, «четырехдневная рабочая неделя») либо им уже знакомым .

Рис. 1. Получение финансовой выгоды с помощью фейковых новостей

 

Фейки о питании

Верить фейкам, например, на темы из сферы здравоохранения и сельского хозяйства людей нередко заставляет нехватка знаний и понимания основ работы этих отраслей. Фальшивки распространяются главным образом за счет «сознательности» представителей  какой-либо  социальной группы.  Так, родители  считают своим долгом уведомить других родителей о вредных продуктах или привычках, ставших известными им со слов «экспертов», из публикаций в Интернете и  т. п.,  как это произошло, к примеру, с движением противников прививок.

Если говорить о сельскохозяйственной продукции, то сегодня бытует масса противоречивых убеждений о здоровом и нездоровом питании. Основная причина путаницы  —  ложная информация в двух формах: пищевая  «мода» (то  есть безосновательная вера в то, что употребление или неупотребление в пищу каких-то продуктов, их сочетаний или добавок может лечить заболевания, благотворно влиять на здоровье или способствовать быстрому  похудению) и  аналогичная дезинформация, распространяемая с целью получения выгоды . Характерный пример пищевой «городской легенды»  —  слух об искусственном рисе, циркулирующий, по сведениям информационного телеканала BBC, еще с 2010 года и зародившийся в Китае: утверждается, что при употреблении в пищу трех чашек такого риса человек съедает такое же количество пластика, какое содержит полиэтиленовый пакет. Слух оказался таким правдоподобным, что когда в 2016 году он достиг африканских социальных сетей, то нигерийские таможенники конфисковали 2,5 тонны натурального риса.  Неменьшую  популярность приобрело опубликованное в Facebook видео о домашнем тестировании пищевых продуктов, где мороженое предлагалось проверять в стиральной машине, детское питание  —  путем смешивания с песком, а сыр  —  добавлением бытовой химии. Ролик набрал около 100 млн просмотров, 500 тыс. лайков и 170 тыс. комментариев. Им успели поделиться около 3 млн раз, после чего по инициативе  Американского  управления по контролю пищевых продуктов и медикаментов видео было удалено, а в отношении Facebook начались проверки.

Скандалы из-за распространения фейковых новостей могут привести к социально-экономическому спаду в связи с  ростом  числом людей, не  доверяющих  правительству, ученым, индустрии, фермерам и производителям.

Борьба с фейковыми новостями

До недавнего времени в редакциях крупных СМИ фальшивые новости  вычисляли вручную: редакторы проверяли факты  до  публикации, независимые эксперты —  после нее . Такие проверки  выполняют  как  сами службы  новостей, так и  специализированные организации —  например, в США к ним относятся FactCheck, PolitiFact и FullFact. Широкое распространение новостей через социальные сети и негативное влияние массовой дезинформации на общество  заставило  исследователей обратиться к новым методам распознавания фальшивок с помощью технологий больших данных и машинного обучения. Современные автоматизированные системы анализа новостей, как  правило,  работают по одному из трех  принципов: 

Анализ стиля текста, а не содержания. Суть метода в том, что фальсификаторы, желая ввести читателя в заблуждение, пользуются определенными приемами, чтобы навязать желаемую идею и при этом не быть пойманными на лжи. Это проявляется в определенных стилистических особенностях, не всегда заметных человеку: показателями фальсификации могут служить  определенные  частота и закономерность употребления отрицаний, местоимений и союзов, а также уровень словарного запаса и сложность текста.

Анализ распространения. Метод строится на использовании специальных моделей, напоминающих модели эпидемий инфекционных заболеваний и позволяющих предсказывать, как будет распространяться дезинформация.

Анализ пользовательской активности. Метод заключается в оценке участия читателей в создании и распространении фейковых новостей. Пользователи делятся на два  класса:  «злоумышленники», получающие выгоду от создания и распространения фейков, и обычные пользователи, которые распространяют фальшивки без конкретного намерения, как правило, одновременно со злоумышленниками.

Рис. 2. Схема распознавания фейковых новостей

 

Оценка стиля: семантический анализ и машинное обучение

Сегодня доступен ряд сервисов,  которые  с помощью моделей машинного обучения  выполняют  лингвистический анализ заголовков, текста,  мультимедиаконтента,  метаданных и других  параметров.  В ходе тестирования таких сервисов (FakeBox, FightHoax, TrulyMedia, SocialTruth и др.) достигалась точность более 95%. Разработанный в МТИ тест Giant Language Model Test, действующий по принципу статистического анализа и сравнения с опорными данными, с точностью 72% распознает тексты, сгенерированные машиной. Подобные системы (рис. 2) в основном работают по принципу поиска  признаков специфического стиля  написания,  сенсационных заголовков  и  пр.,  сравнивая и соотнося их с текстами из уже размеченных наборов данных. Кроме того, такие сервисы могут выполнять поиск аккаунтов или никнеймов, в конечном счете принадлежащих уже проявившим себя авторам фальшивок. В результате работы системы входной контент классифицируется как достоверный или ложный.

Статистический анализ может основываться,  например,  на анализе общего числа слов, среднем количестве букв в словах, частоте употребления различных слов, количестве  неповторяющихся  слов. Возможен поиск синтаксических особенностей: частота употребления служебных слов, особенности пунктуации, встречаемость различных частей речи. Показателем достоверности могут служить домен-специфичные элементы текста: цитаты, внешние ссылки, характер иллюстраций. Сам анализ может выполняться при помощи семантических технологий и классификаторов на основе алгоритмов глубинного обучения. При семантическом анализе  оценивается  смысл синтаксических структур  —  словосочетаний, фраз, предложений, абзацев, текста в целом  —  с отбрасыванием признаков, специфичных для конкретного лингвистического и культурного контекста. Обычно это предварительный этап обработки текста, выполняемый для подготовки к дальнейшему анализу,  но,  в отличие от стандартной очистки от посторонних символов и строк, здесь сохраняются первоначальные отношения между объектами: людьми, событиями и др. При такой предварительной обработке может формироваться «сеть» из слов и их взаимосвязей, которая выражает смысл текста и сама по себе подходит для анализа на этапе классификации, когда тексту назначаются метки или категории в зависимости от содержания. Данная схема применяется для решения многих задач, в том числе при анализе тональности высказываний,  при  тематической  разметке,  распознавании спама и определении намерений.

Перечислим алгоритмы машинного обучения, используемые для классификации фейковых новостей с учетом стиля текста.

Метод опорных векторов. Позволяет существенно уменьшить потребность в размеченных обучающих экземплярах при различных типах обучения. Классификаторы этого типа демонстрируют высокую эффективность на новых данных, достигая точности более 90%.

Метод k-ближайших соседей. Алгоритм обучения на основе сходства, который можно применять для различных задач классификации текстов, по эффективности сопоставим с методом опорных векторов.

Логистическая регрессия. Один  из ключевых аналитических инструментов, применяемых в обществознании и естественных науках. В обработке естественного языка применяется для контролируемого обучения классификаторов, принимающих решение путем сравнения входных данных с опорными.

Случайный лес. Метод классификации, предусматривающий выращивание большого «ансамбля» решающих деревьев и выбора тех, которые обеспечивают наилучшие результаты.

Наивная байесовская модель. Такая модель популярна в качестве несложного инструмента создания вероятностных классификаторов фейковых новостей, демонстрирующего достаточную эффективность в сложных реалистичных условиях.

Искусственные нейронные сети. Нейросети состоят из узлов, выполняющих  вычисления:  искусственные нейроны комбинируют входные данные с весовыми коэффициентами, назначая полученным сведениям вес с учетом выполняемой сетью задачи. Традиционные алгоритмы нейросетей хуже справляются с классификацией текстов, так как не запоминают предыдущую историю обработки данных, поэтому в современных системах анализа отдают предпочтение    глубинным нейронным сетям.

Глубинное обучение. Глубокие нейронные сети похожи на обычные, но состоят из множества слоев. Для распознавания фейковых новостей предложен ряд архитектур таких сетей, в том числе сверточные (convolutional neuronal network, CNN), требующие  минимального количества  предварительной обработки,  числа  параметров и объема обучения. Кроме того, используются рекуррентные нейросети, динамически меняющиеся со временем и способные запоминать новую лексическую и семантическую информацию. Также применяются иерархические сети внимания (hierarchical attention network, HAN), фиксирующие определенные характеристики структуры документа. Вначале они выстраивают репрезентации предложений, а затем на их основе формируют репрезентацию всего документа. При этом используется факт различной степени информативности разных слов и предложений.

Все эти методы могут демонстрировать превосходные результаты, но лучшую эффективность в большинстве случаев (как при распознавании фейковых новостей, так и в других задачах классификации) показывают логистическая регрессия,  байесовские  модели и глубинное обучение, хорошо проявившее себя на разных наборах данных и при работе с различными схемами обработки. Сверточные сети чаще демонстрируют более точные результаты на разнородных наборах данных, а HAN  —  при обработке обширных наборов. Обычно CNN позволяют получить точность свыше 90%, причем этот показатель можно улучшить, если задействовать схемы, компенсирующие отсутствие запоминания предыдущих событий. Одна из таких схем  —  «долгая краткосрочная  память». Это  разновидность рекуррентных нейронных сетей с циклами и блоками, которые позволяют запоминать значения в течение некоторого периода времени, что позволяет прослеживать связь между словами, которыми начинается и оканчивается анализируемый текст.

Доступные  корпусы  уже размеченных фейковых и реальных новостей повышают точность работы классификаторов независимо от применяемого метода машинного обучения.  К общедоступным наборам  данных такого рода  можно отнести: Kaggle — базу  фейковых новостей,  содержащую  несколько тысяч вхождений; BuzzFeed  —  обновляемый перечень сайтов, публикующих сфабрикованные сведения; Kaidmml  —  нормализованные сборники фейковых новостей;  LIAR —  набор тестовых данных, содержащий 12,8 тыс. проверенных высказываний различных спикеров на разные темы.

***

Фейки и  искажение  сведений в новостях  по-разному  влияют на жизнь людей, при этом от кампаний дезинформации не защищены никакие  сферы жизни и отрасли экономики.  Фейковые новости наносят ущерб предприятиям различных  секторов,  даже когда сами эти предприятия не являются непосредственным объектом  клеветы. Подрыв доверия к властям, науке и здравоохранению приводит  к падению продаж и стоимости акций, негативным социальным  последствиям. 

  С учетом масштабов  распространения ложной информации, как никогда актуальна потребность в быстрых и действенных  решениях в ходе борьбы с фейками.  Современные технологии классификации текстов, основанные на машинном обучении, позволяют ускорить и частично автоматизировать процесс отсева  дезинформации.  Но, чтобы избежать предвзятости, не стоит доверять задачу распознавания ложных сведений какому-либо одному специализированному центру или алгоритму верификации. Даже самые сложные модели классификации, основанные на глубинном обучении, оптимальны лишь на момент создания, и их точность со временем уменьшается по мере появления новых фальшивок и изменения стиля их написания. Задачу децентрализации можно  решить, например,  с помощью распределенных архитектур верификации контента на основе блокчейна. А проблему устаревания моделей можно преодолеть с помощью открытых фреймворков, обеспечивающих непрерывное обучение, а также  благодаря повышению  модульности и адаптивности архитектуры автоматических сервисов верификации контента.

1. S. Banerjee, M. Jenamani, D. K.  Pratihar.  A survey on influence maximization in a social network.  2018.  arXiv:1808.05502.

2. A.  Acerbi.  Cognitive attraction and online  misinformation //  Palgrave  Commun. — 2019. —  vol.  5.  Art. no. 15.

3. Position of the American dietetic association: Food and nutrition  misinformation //  J. Amer. Dietetic  Assoc. —  2006.  — N. 4. — P. 601–607. 

4. S. Cazalens, P. Lamarre, J. Leblay, I. Manolescu, X.  Tannier.  A content management perspective on fact-checking. Proc. Companion Web  Conf. — 2018. — P.  565–574.

Константинос Деместихас () — научный сотрудник; Константина Ремунду () — специалист по анализу данных; Евгения Адамопулу () — старший научный сотрудник, Афинский политехнический университет.

Konstantinos Demestichas, Konstantina Remoundou, Evgenia Adamopoulou, Food for Thought: Fighting Fake News and Online Disinformation, IT Professional. March/April 2020, IEEE Computer Society. All rights reserved. Reprinted with permission.


Безопасность,машинное обучение,фейк, дезинформация,Security, machine learning, fake, disinformation



Свежий выпуск Важные темы ИТ-календарь
2 июня 2020 3 июня 2020 4 июня 2020 18 июня 2020 19 июня 2020 Популярные теги 19 апреля 2019 19 апреля 2019

«Открытые системы» - ведущее российское издательство, выпускающее широкий спектр изданий для профессионалов и активных пользователей в сфере ИТ, цифровых устройств, телекоммуникаций, медицины и полиграфии, журналы для детей.

© «Открытые системы», 1992-2020.
Все права защищены.

ПодпискаБудь в СЕТИ! Новости социальных сетей - всегда актуальное
 
Группы: ВК | OK | Tg