М.: ДМК Пресс, 2018. — 252 с.
Н2О - простая в использовании и открытая библиотека, которая
поддерживает большое количество операционных систем и языков
программирования, а также масштабируется для обработки больших
данных. Эта книга научит вас использовать алгоритмы машинного
обучения, реализованные в Н2О, с упором на наиболее важные для
продуктивной работы аспекты. Рассмотрены глубокое обучение,
случайный лес, обучение на неразмеченных данных и ансамбли моделей.
В российское издание добавлены дополнительно два приложения,
описывающих новейшие модули Н2О - Deep Water и Stacked Ensemble. Их
также можно найти в репозитории
https://github.com/statist-bhfz/h2o_book_translate. Издание предназначено для специалистов по анализу данных, желающих изучить и применять на практике относительно новый, но многообещающий инструмент - библиотеку Н2О.
Предисловие.
Установка и начало работы.
Подготовка к установке.
Установка R.
Установка Python.
Конфиденциальность.
Установка Java.
Установка Н2О при помощи R (CRAN).
Установка Н2О при помощи Python (pip).
Наша первая задача машинного обучения.
Обучение и предсказания в Python.
Обучение и предсказания в R.
Производительность и предсказания.
Если вам не повезло.
Веб-интерфейс Flow.
Данные.
Модели.
Предсказания.
Дополнительные сведения об интерфейсе Flow.
Резюме.
Импортирование и экспортирование данных.
Требования к памяти.
Подготовка данных.
Загрузка данных в Н2О.
Загрузка файлов в формате Csv.
Загрузка файлов в других форматах.
Загрузка данных из R.
Загрузка данных из Python.
Операции с данными.
«Ленивость », присвоение имен и удаление.
Итоговые статистики.
Операции со столбцами.
Агрегирование строк.
Индексация.
Разделение данных в кластере Н2О.
Строки и столбцы.
Выгрузка данных из Н2О.
Экспорт таблиц.
Формат POJO.
Файлы моделей.
Сохранение всех моделей.
Резюме.
Наборы данных.
Набор данных об энергетической эффективности.
Настройка и загрузка.
Переменные.
Разделение данных.
Изучение данных.
О наборе данных.
Набор данных: рукописные цифры.
Настройка и загрузка.
Изучение данных.
Как можно «помочь» модели.
О наборе данных.
Набор данных: результаты футбольных матчей.
Корреляции.
Пропущенные данные.
Как обучать и тестировать?
Настройка и загрузка.
Третий источник данных.
Снова про пропущенные данные.
Настройка и загрузка (снова).
О наборе данных.
Резюме.
Общие параметры моделей.
Поддерживаемые метрики.
Метрики для регрессии.
Метрики для классификации.
Бинарная классификация.
Основы.
Объём выполняемой работы.
Оценка и проверка.
Ранняя остановка.
Контрольные точки.
Перекрестная проверка.
Взвешивание наблюдений.
Выборки и обобщающая способность.
Регрессия.
Контроль вывода результатов.
Резюме.
Случайный лес.
Решающие деревья.
Случайный лес.
Параметры.
Энергоэффективность зданий: случайный лес с настройками по умолчанию.
Поиск по сетке.
Полный перебор.
Случайный поиск.
Общая стратегия.
Энергоэффективность зданий: настроенный случайный лес.
MNIST: случайный лес с настройками по умолчанию.
MNIST: настроенный случайный лес.
Дополненные данные.
Футбол: случайный лес с настройками по умолчанию.
Футбол: настроенный случайный лес.
Резюме.
Градиентный бустинг.
Бустинг.
Хорошее, плохое ... и непонятное.
Параметры.
Энергоэффективность зданий: градиентный бустинг с настройками по умолчанию.
Энергоэффективность зданий: настроенный градиентный бустинг.
MNIST: градиентный бустинг с настройками по умолчанию.
MNIST: настроенный градиентный бустинг.
Футбол: градиентный бустинг с настройками по умолчанию.
Футбол: настроенный градиентный бустинг.
Резюме.
Линейные модели.
Параметры GLM.
Данные об энергоэффективности: GLM с настройками по умолчанию.
Данные об энергоэффективности: настроенная GLM.
MNIST: GLM с настройками по умолчанию.
MNIST: настроенная GLM.
Футбол: GLM с настройками по умолчанию.
Футбол: настроенная GLM.
Резюме.
Глубокое обучение (нейронные сети).
Что такое нейронные сети?
Количественные и категориальные переменные.
Слои нейронной сети.
Функции активации.
Параметры.
Регуляризация.
Оценка качества.
Энергоэффективность зданий: модель глубокого обучения с настройками по умолчанию.
Энергоэффективность зданий: настроенная модель глубокого обучения.
MNIST: модель глубокого обучения с настройками по умолчанию.
MNIST: настроенная модель глубокого обучения.
Футбол: модель глубокого обучения с настройками по умолчанию.
Футбол: настроенная модель глубокого обучения.
Резюме.
Приложение: дополнительные параметры.
Обучение на неразмеченных данных.
Кластеризация методом k-средних.
Автокодировщики.
Вложенные автокодировщики.
Метод главных компонент.
GLRМ.
Пропущенные данные.
GLRМ.
Избавляемся от R.
Резюме.
Всё остальное.
Документация.
Установка актуальной версии.
Сборка из исходных кодов.
Запуск из командной строки.
Кластеры.
ЕС2.
Другие облачные провайдеры.
Hadoop.
Spark / Sparkling Water.
Наивный байесовский классификатор.
Ансамбли.
Стекинг: h20.ensemble.
Ансамбли для классификации.
Резюме.
Эпилог.
Результаты для данных об энергоэффективности.
Результаты для набора данных MNIST.
Результаты для данных о футбольных матчах.
Как далеко вы готовы зайти.
Чем больше, тем лучше.
Ещё больше данных.
Отбор сложных примеров.
Автокодировщик.
Свёрточные сети.
Ансамбли.
Результаты.
Резюме.
Приложение. Deep Water.
Установка.
Сборка из исходных кодов.
Amazon Machine Image.
Образ Docker.
Примеры данных.
Обзор библиотеки Deep Water.
Глубокое обучение в библиотеке H2O.
Современные тенденции в глубоком обучении.
Почему нужно использовать Deep Water.
Начало работы: набор данных MNIST.
Бекенды.
CPU и GPU.
Классификация изображений.
Данные.
Параметры изображений.
Предварительно созданные архитектуры.
Архитектуры, создаваемые пользователем.
Предварительно обученные нейросети.
Веб-интерфейс Flow.
Поиск по сетке.
Полный перебор.
Случайный поиск.
Контрольные точки.
Ансамбли.
Признаки скрытых слоёв и меры сходства.
Поддержка нескольких GPU.
Развёртывание моделей.
MOJO.
Prediction Service Builder.
Приложение. Ансамбли (стекинг моделей).
Вступление.
Стекинг / Super Leaer.
Алгоритм.
Вложенные ансамбли в библиотеке H2O.
Пример.
На языке R.
На языке Python.
Вопросы и ответы.
Дополнительная информация.
Список литературы.
Краткий предметный указатель.
https://github.com/statist-bhfz/h2o_book_translate. Издание предназначено для специалистов по анализу данных, желающих изучить и применять на практике относительно новый, но многообещающий инструмент - библиотеку Н2О.
Предисловие.
Установка и начало работы.
Подготовка к установке.
Установка R.
Установка Python.
Конфиденциальность.
Установка Java.
Установка Н2О при помощи R (CRAN).
Установка Н2О при помощи Python (pip).
Наша первая задача машинного обучения.
Обучение и предсказания в Python.
Обучение и предсказания в R.
Производительность и предсказания.
Если вам не повезло.
Веб-интерфейс Flow.
Данные.
Модели.
Предсказания.
Дополнительные сведения об интерфейсе Flow.
Резюме.
Импортирование и экспортирование данных.
Требования к памяти.
Подготовка данных.
Загрузка данных в Н2О.
Загрузка файлов в формате Csv.
Загрузка файлов в других форматах.
Загрузка данных из R.
Загрузка данных из Python.
Операции с данными.
«Ленивость », присвоение имен и удаление.
Итоговые статистики.
Операции со столбцами.
Агрегирование строк.
Индексация.
Разделение данных в кластере Н2О.
Строки и столбцы.
Выгрузка данных из Н2О.
Экспорт таблиц.
Формат POJO.
Файлы моделей.
Сохранение всех моделей.
Резюме.
Наборы данных.
Набор данных об энергетической эффективности.
Настройка и загрузка.
Переменные.
Разделение данных.
Изучение данных.
О наборе данных.
Набор данных: рукописные цифры.
Настройка и загрузка.
Изучение данных.
Как можно «помочь» модели.
О наборе данных.
Набор данных: результаты футбольных матчей.
Корреляции.
Пропущенные данные.
Как обучать и тестировать?
Настройка и загрузка.
Третий источник данных.
Снова про пропущенные данные.
Настройка и загрузка (снова).
О наборе данных.
Резюме.
Общие параметры моделей.
Поддерживаемые метрики.
Метрики для регрессии.
Метрики для классификации.
Бинарная классификация.
Основы.
Объём выполняемой работы.
Оценка и проверка.
Ранняя остановка.
Контрольные точки.
Перекрестная проверка.
Взвешивание наблюдений.
Выборки и обобщающая способность.
Регрессия.
Контроль вывода результатов.
Резюме.
Случайный лес.
Решающие деревья.
Случайный лес.
Параметры.
Энергоэффективность зданий: случайный лес с настройками по умолчанию.
Поиск по сетке.
Полный перебор.
Случайный поиск.
Общая стратегия.
Энергоэффективность зданий: настроенный случайный лес.
MNIST: случайный лес с настройками по умолчанию.
MNIST: настроенный случайный лес.
Дополненные данные.
Футбол: случайный лес с настройками по умолчанию.
Футбол: настроенный случайный лес.
Резюме.
Градиентный бустинг.
Бустинг.
Хорошее, плохое ... и непонятное.
Параметры.
Энергоэффективность зданий: градиентный бустинг с настройками по умолчанию.
Энергоэффективность зданий: настроенный градиентный бустинг.
MNIST: градиентный бустинг с настройками по умолчанию.
MNIST: настроенный градиентный бустинг.
Футбол: градиентный бустинг с настройками по умолчанию.
Футбол: настроенный градиентный бустинг.
Резюме.
Линейные модели.
Параметры GLM.
Данные об энергоэффективности: GLM с настройками по умолчанию.
Данные об энергоэффективности: настроенная GLM.
MNIST: GLM с настройками по умолчанию.
MNIST: настроенная GLM.
Футбол: GLM с настройками по умолчанию.
Футбол: настроенная GLM.
Резюме.
Глубокое обучение (нейронные сети).
Что такое нейронные сети?
Количественные и категориальные переменные.
Слои нейронной сети.
Функции активации.
Параметры.
Регуляризация.
Оценка качества.
Энергоэффективность зданий: модель глубокого обучения с настройками по умолчанию.
Энергоэффективность зданий: настроенная модель глубокого обучения.
MNIST: модель глубокого обучения с настройками по умолчанию.
MNIST: настроенная модель глубокого обучения.
Футбол: модель глубокого обучения с настройками по умолчанию.
Футбол: настроенная модель глубокого обучения.
Резюме.
Приложение: дополнительные параметры.
Обучение на неразмеченных данных.
Кластеризация методом k-средних.
Автокодировщики.
Вложенные автокодировщики.
Метод главных компонент.
GLRМ.
Пропущенные данные.
GLRМ.
Избавляемся от R.
Резюме.
Всё остальное.
Документация.
Установка актуальной версии.
Сборка из исходных кодов.
Запуск из командной строки.
Кластеры.
ЕС2.
Другие облачные провайдеры.
Hadoop.
Spark / Sparkling Water.
Наивный байесовский классификатор.
Ансамбли.
Стекинг: h20.ensemble.
Ансамбли для классификации.
Резюме.
Эпилог.
Результаты для данных об энергоэффективности.
Результаты для набора данных MNIST.
Результаты для данных о футбольных матчах.
Как далеко вы готовы зайти.
Чем больше, тем лучше.
Ещё больше данных.
Отбор сложных примеров.
Автокодировщик.
Свёрточные сети.
Ансамбли.
Результаты.
Резюме.
Приложение. Deep Water.
Установка.
Сборка из исходных кодов.
Amazon Machine Image.
Образ Docker.
Примеры данных.
Обзор библиотеки Deep Water.
Глубокое обучение в библиотеке H2O.
Современные тенденции в глубоком обучении.
Почему нужно использовать Deep Water.
Начало работы: набор данных MNIST.
Бекенды.
CPU и GPU.
Классификация изображений.
Данные.
Параметры изображений.
Предварительно созданные архитектуры.
Архитектуры, создаваемые пользователем.
Предварительно обученные нейросети.
Веб-интерфейс Flow.
Поиск по сетке.
Полный перебор.
Случайный поиск.
Контрольные точки.
Ансамбли.
Признаки скрытых слоёв и меры сходства.
Поддержка нескольких GPU.
Развёртывание моделей.
MOJO.
Prediction Service Builder.
Приложение. Ансамбли (стекинг моделей).
Вступление.
Стекинг / Super Leaer.
Алгоритм.
Вложенные ансамбли в библиотеке H2O.
Пример.
На языке R.
На языке Python.
Вопросы и ответы.
Дополнительная информация.
Список литературы.
Краткий предметный указатель.