9 мифов о машинном обучении. KiT :: Будь в СЕТИ!

И все же машинное обучение в той или иной форме будет применяться практически во всех организациях: 42% руководителей, опрошенных компанией Accenture, указали, что к 2021 году искусственный интеллект станет основой всех внедряемых ими новшеств. Но результаты будут более качественными, если не поддаваться шумихе, не впадать в распространенные заблуждения и точно знать, какие возможности машинное обучение может предложить, а какие – нет.

Миф № 1. Машинное обучение – это искусственный интеллект

Термины «машинное обучение» и «искусственный интеллект» используют как синонимы, но первое – это один из методов реализации искусственного интеллекта, на сегодня получивший наиболее широкое применение на практике благодаря активным исследованиям, тогда как второе – это понятие, которое обобщает целый ряд областей, в том числе компьютерное зрение, робототехнику, обработку искусственного языка, а также методы, не имеющие отношения к машинному обучению, например применяемые для решения задачи удовлетворения ограничений. По сути искусственный интеллект – это любые методы, благодаря которым машины начинают казаться «умными», но никакой из них в отдельности не является полноценным «искусственным интеллектом», способным соперничать с человечеством или даже обратиться против него.

Суть машинного обучения состоит в запоминании закономерностей, присутствующих в уже доступном наборе данных, и прогнозировании тех же закономерностей для новых аналогичных наборов данных; результат может выглядеть как плод «интеллектуальной» работы, но в целом принцип состоит в применении статистических методов в огромных масштабах и на очень высокой скорости.

Миф № 2. Все данные полезны

Данные для машинного обучения необходимы, но не все они полезны. Чтобы обучить систему, требуется репрезентативная выборка с нужными закономерностями, позволяющая получить именно те результаты, на которые рассчитана ваша система машинного обучения. При этом в данных не должно быть закономерностей, не имеющих отношения к решаемой задаче (например, лишними будут серии фотографий, на которых все мужчины стоят, а все женщины сидят, или где все автомобили в гараже, а все велосипеды – на улице), поскольку модель машинного обучения, создаваемая вами, запомнит эти специфичные закономерности и будет искать их в данных, с которыми вы ее используете. Все данные, используемые для моделей обучения, должны быть аккуратно размеченными, причем разметка должна соответствовать «вопросам», которые вы собираетесь задавать системе машинного обучения, и это потребует немалых трудозатрат.

Полагать, что данные, которые у вас уже есть, чисты, точны, репрезентативны и легко поддаются разметке, – заблуждение.

Миф № 3. Полезны всегда большие объемы данных

Достижения последнего времени в сфере распознавания образов, автоматизированного понимания текстов, машинного перевода и в других областях стали возможными благодаря появлению более совершенных инструментальных средств, графических процессоров, способных обрабатывать много данных в параллельном режиме, и обширных размеченных наборов данных, например ImageNet и Stanford Question Answering Dataset. Но, благодаря методу под названием «трансферное обучение» (transfer learning), вам не всегда нужно иметь...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.