Полезные приемы и лучшие практики от Kaggle Хабр

Содержание

Простое решение для ваших рассылок
Строим процессы тестирования в команде через огонь, воду и собственные фреймворки
Почему меня разочаровали результаты Kaggle ARC Challenge
Как узнать, нужна ли фича?
Как начался ваш путь на Kaggle, что
Задача от Kaggle – Quora Question Pairs

Верстальщики получают продуманные решения самых насущных проблем – разметку, интерфейсы, адаптивность. Тут важно настроить весь процесс так, чтобы сразу получать отчет, кто и как пользовался фичей. Retention — возвращаемость пользователей, привыкли они к продукту или нет. Такой эксперимент стоит проводить платформа Kaggle для новичка на группах пользователей, а не на всех сразу. Также этот пункт является не только проблемой приватности, но и бедой обычных пользователей, которым часто приходят сообщения о присоединении человека. В таких случаях была бы очень удобной функция отключения автоматического создания чатов с новыми аккаунтами.

Крылатая фраза “это не баг, а фича” часто используется разработчиками для оправдания совершенных ошибок. Сегодня фичей называют любую характеристику продукта, которая имеет специфические особенности. Фича в IT это может быть необычное программное решение, возможности, особая функциональность, уникальные характеристики, которые привлекают внимание.

В тесте было 8424 обучающих примера, но следует понимать, что все это ложь. Kaggle это любит – в тесте было 5000 сгенерированных изображений в целях предотвращения ручной разметки. Для сгенерированных было больше десяти, для реальных же только 4. В нашем сообществе есть несколько топовых специалистов из разных профессиональных областей по машинному обучению, поэтому мы пришли к этому формату. Один человек, который достаточно хорошо знаком с областью и может объяснить суть происходящего, по ходу видео-лекции и разъясняет некоторые нюансы и отвечает на вопросы остальных слушателей. “Письмо дяди Федора” – совместное онлайн решение, ограниченное по времени, с получением баллов за обнаружение особенностей в данных.

В какой-то момент мы поняли, что с нашим маленьким покрытием, заброшенными тестами и текущими инструментами нам далеко не уйти, поэтому решили изменить стек, процессы и подружить тестировщиков и разработчиков. Привет, Хабр ? Меня зовут Михаил Подгорный и я руковожу отделом Frontend платформы в Ozon. В нашей компании уже около 500 фронтенд-разработчиков, силами которых было создано более 400 веб-приложений. Мы пишем на TypeScript и Vue, шаблонизируем на JSX, для тестов используем Jest и Playwright.

Значительная часть водяных насосов полностью вышла из строя или практически не работает, а остальные требуют капитального ремонта. Министерство водных ресурсов Танзании согласилось с Taarifa, и они запустили конкурс в надежде получить подсказки от сообщества для выполнения стоящих перед ними задач. Как и ожидалось, наиболее важные признаки связаны с EXTSOURCE и DAYSBIRTH.

Это даст чуть лучшие результаты, чем LogisticRegression с параметрами по умолчанию, но все равно установит низкую планку для любых будущих моделей. В следующей части я расскажу о разработке дополнительных признаков на основе имеющихся данных, а также продемонстрирую создание простейшей модели машинного обучения. EXT_SOURCE_3 отображает наибольшую разницу между значениями цели.

Простое решение для ваших рассылок

В характеристиках водяных насосов есть та, которая показывает количество воды. Мы можем проверить, как количество воды связано с состоянием насосов . Показатель, используемый для этого соревнования,этоclassification rate, который вычисляет процент строк, в которых прогнозируемый класс совпадает с фактическим классом в тестовом наборе. Цель состоит в том, чтобы максимизировать classification rate. Все четыре созданные вручную признака вошли в топ-15 самых важных.

В высокочастотной торговле скорость критически важна, поэтому наши инженеры постоянно работают над ускорением. Они занимаются внутренней оптимизацией и ищут хитрые способы более быстрого получения и обработки данных от бирж. Главные особенности Telegram — скорость работы и высокая степень защиты данных. Собрали в одном месте самые интересные и полезные функции приложения.

Компании выкладывают на Kaggle самые сложные и запутанные проблемы, которые не решить за один день.
Некоторые команды, которые вошли в топ 5, пошли еще дальше.
Закоммитив notebook, мы сможем получить доступ к любым прогнозам, сделанным нашей моделью, и подать их на оценивание.
В школе это посчитали бы жульничеством, а в реальном мире это чрезвычайно важный навык командной работы.

Давайте представим себе, что вопросы это некие частицы, случайно расположенные в пространстве. И эти частицы взаимодействуют таким образом, что если частицы-вопросы похожи, то они притягиваются, а если не похожи, то — отталкиваются. Это может быть похоже на гравитационное или электростатическое взаимодействие. В этом конкурсе не обошлось без сюрпризов от организаторов.

Строим процессы тестирования в команде через огонь, воду и собственные фреймворки

Эх, а как хотелось верить в способность моделей вытаскивать простые логические правила. В итоге поиск решения участниками свелся к написанию правил (трансформаций) для решения конкретных кейсов, поиску по форуму и объединению в свой ноутбук таких решений. Это решение было доработано и дошло до LeaderBoard.На картинке в первой строке входное изображение, во второй правильный ответ, в третьей результат работы модели. Участникам предлагалось обучить модель на 400 задачах, в каждой из которых есть train (три-пять картинок), ответ и тест (одна-две картинки и соответственно один-два ответа). Этот датасет вручную разметил Davide Bonin на комбинации из 192 элементарных трансформаций.

При создании модели машинного обучения, можно попробовать использовать или не использовать эти признаки, чтобы определить, действительно ли они помогают модели учиться. Исследовательский анализ данных это открытый процесс, в ходе которого необходимо рассчитывать статистики и строить графики, чтобы найти тенденции, аномалии, закономерности или взаимосвязи в данных. Обычно он начинается с общего обзора, а затем сужается к конкретным областям, когда мы находим интересные области данных. Результаты могут быть интересны сами по себе, или их можно использовать для принятия решения о выборе модели, например, помогая нам решить, какие признаки использовать. Стоит сказать, что это только вершина айсберга и методов машинного обучения очень много.

Главные фичи от Kaggle

А значит, не нужно разворачивать свой проект с нуля, собирать и очищать данные. Сосредоточьтесь на поиске лучшего решения и исследовании алгоритмов. Для создания своей модели нейронной сети для распознавания цифр воспользуемся интерпретатором Рython c установленным пакетом nolearn 0.4, а также numpy и scipy (для удовлетворения всех зависимостей). Он был Ph.D и имел доступ к университетскому компьютеру с шестью GTX 1080. Также он предложил свою схему багинг-стекинга для генерации сабмитов. И весь остаток конкурса мы все занимались только генерацией данных для него, а он агрегировал их в свою модель.

Почему меня разочаровали результаты Kaggle ARC Challenge

Мы гордимся нашей инфраструктрурой — торговой и рисерчерской, и заботимся о том, чтобы исследовать данные, делать стратежки и запускать их в бой было максимально удобно и быстро. В роли фичи могут выступать различные фильтры, нестандартные слайдеры, уникальная визуализация, кардинально новое оформление интерфейса, необычная экипировка и поведение персонажей, схема диалогов, сюжетные ходы. Фича — это сленг, название тех или иных признаков предмета, либо явления.

Главные фичи от Kaggle

Когда мы оцениваем классификатор в соответствии с метрикой ROCAUC, мы генерируем не точные прогнозы 0 или 1, а скорее вероятность от 0 до 1. Например, если бы я хотел построить модель, которая могла бы обнаруживать террористов с точностью 99,9999%, я бы просто сделал модель, https://deveducation.com/ предсказывающую, что каждый человек не является террористом. Ясно, что это будет неэффективно (полнота будет равна нулю), поэтому мы будем использовать более сложные показатели, такие как ROCAUC или оценка F1, чтобы более точно отразить эффективность классификатора.

Как узнать, нужна ли фича?

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке. Будем рады видеть в команде новых увлеченных исследователей и инженеров. Здесь видно, что объединение двух моделей не сильно улучшило производительность.

Ссуд, выплаченных вовремя, намного больше, чем невыплаченных ссуд. Когда вы будете переходить к более сложным моделям машинного обучения, сможетевзвесить классы по их долев данных, чтобы смягчить этот дисбаланс. Сейчас мы ознакомились с используемыми данными и метрикой, которую нужно максимизировать, поэтому давайте перейдем непосредственно к более глубокому изучению данных. Как упоминалось ранее, я буду придерживаться основных источников данных и простых моделей, которые можно использовать в дальнейшей работе.

Как начался ваш путь на Kaggle, что

Можно ясно видеть, что этот признак имеет некоторое отношение к вероятности возврата кредита заемщиком. Связь не очень сильная (на самом деле все они считаются очень слабыми), но эти признаки все равно будут полезны для модели машинного обучения, чтобы предсказать, вернет ли кандидат ссуду вовремя. Этот пункт будет очень удобен для небольших чатов, у которых есть короткая ссылка на вступление.

Задача от Kaggle – Quora Question Pairs

Об относительных достоинствах этих подходов ведутся споры, и некоторые модели могут без проблем работать с категориальными переменными, закодированными метками. И в этом с ним согласны многие специалисты в области машинного обучения и анализа данных. Единственным недостатком этого метода является то, что количество признаков (измерений данных) может увеличиваться из-за категориальных переменных со многими категориями.

Изначально для двух обучающих алгоритмов показатели R был равны -0,37 и 0,22, соответственно, а для ансамбля получилось -0,04. То есть модель EL получила среднее значение показателей. Это золотая жила для дата-сайентистов и инженеров машинного обучения. Не так много платформ, на которых вы можете найти высококачественные, эффективные, воспроизводимые, отобранные экспертами, потрясающие примеры коды в одном месте.

Как мы знаем, именно такой ИИ теоретики называют сильным или ещё AGI. Для оценки был выбран AUC, потому что данные сильно несбалансированы, и этот показатель вполне подходит для таких случаев так как несбалансированность на него не влияет. Прежде чем приступить к созданию модели, нам необходимо очистить и подготовить данные. Danidaсовместная организация Танзании и Дании по финансированию скважин, и хотя у них много работающих водозаборов, процент неисправных очень высок. Похожая ситуация с RWSSP (программа сельского водоснабжения и канализации), Dhv и некоторыми другими. Следует отметить, что большинство скважин, профинансированных Германией и частными лицами, находятся в рабочем состоянии.

Модель с высоким значением ROCAUC также будет иметь высокую точность, но кроме этого ROCAUC лучше отражает и другие характеристики модели. В начале пути лучше работать одному — это поможет внимательнее относиться к ключевым задачам, включая исследовательский анализ, очистку данных, разработку признаков и обучение модели. Хотя вам вряд ли достанется приз, а задачи сильно отличаются от «промышленного» Data Science, соревнования — это отличный инструмент обучения. Многие вообще считают Kaggle лучшим способом изучить науку о данных. Иногда воображение и знание элементарных законов физики может помочь в решении таких совсем не физических задач.

Contacto