Краткий курс "Введение в R и моделирование с R" (Pavel Polishchuk)

Short course "Introdiction to R and modeling with R" (in Russian)

  • Занятие 1. Введение. Типы и структуры данных. Векторизация. Преобразование типов и структур данных. Индексы.
  • Занятие 2. Работа с файлами. Создание собственных функций. Манипуляции с данными. Примеры работы с графикой. Семейство функций apply.
  • Занятие 3. Линейная регрессия. Метод частичных наименьших квадратов (PLS). Метод Random Forest для регрессионных и классификационных задач. Примеры вывода результатов моделей в виде графиков.
  • Занятие 4. Моделирование с использованием пакета caret. Подготовка данных и построение моделей.
  • Занятие 5. Консенсусное моделирование. Усреднение прогнозов и стекинг.
  • Занятие 6. Графические возможности R с пакетом ggplot2.
  • Экзаменационные задания.

Ссылки на файлы с данными

data.zip - две выборки соединений (обучающая x1 - 800 соединений, тестовая x2 - 233 соединения) с данными по растворримости и рассчитанными симплексными дескрипторами (регрессионная задача).

models.zip - Модели gbm, rf, knn, pls, svm, построенные с использованием пакета caret для первой выборки по растворимости.

models_predictions.zip - Результаты прогноза растворимости по моделям gbm, rf, knn, pls и svm для кросс-валидации и внешней тестовой выборки.

ames_data.zip - две выборки соединений (обучающая x1 - 700 соединений, тестовая x2 - 700 соединений) с данными по мутагенности (тест Эймса) и рассчитанными симплексными дескрипторами (классификационная задача).

ENB2012_data.xlsx - Выборка с данными для моделирования энергоэффективности зданий. Подробности тут

© Pavel Polishchuk 2010-2017