Технологии анализа данных в естественных науках

Інcтитут/Факультет: 
ИВТ
Курс: 
1-Маг
Семестр: 
2
Підсумковий контроль: 
іспит
Лектор: 

Г.Н.Стрильчук, к.ф.-м.н.

Кафедра: 
Кафедра математики, теоретической физики и компьютерных технологий
Вид навчального курсу: 
Нормативний курс

 

План курса 
 
 
Планирование эксперимента, выбор модели. Верификация данных. Погрешность, ошибка, проблема шума в экспериментальных данных. (Чистка и верификация данных: пропущенные данные, обработка выбросов, повторных наблюдений, некорректных значений и др.)
Характеристики статистического анализа данных. Оценка данных. Интерполяция, сплайн-интерполяция. (Основные характеристики статистического оценивания. Состоятельные и несмещенные оценки. Сглаживание и интерполяция экспериментальных данных. Методы скользящего среднего и полиномиальное сглаживание. Методы интерполяции: Лагранжа, Ньютона-Грегори, Сплайн-интерполяция.)
Статистические характеристики, оценка вероятности и доверительный интервал (Выявление тренда статистических характеристик. Критерии Стьюдента, Фишера, Фостера-Стюарта. Доверительные интервалы оценивания выборочно среднего и выборочной дисперсии. Оценивания вероятности события и доверительно интервала для вероятности)
Плотность распределения. Стохастические зависимости. Корреляционный анализ. (Критерии согласования плотностей распределения: χ - квадрат, Колмогорова. Эмпирическая плотность распределения-гистограмма. Квазиоптимальное количество интервалов. Стохастическая зависимость. Корреляционный анализ, коэффициент корреляции, доверительные интервал для коэффициента корреляции).
Анализ задачи классификации (Ключевые понятия и определения. Деревья принятия решений.Деревья классификации и регрессии (С & RT). CHAID (Chi-squared Automatic Interaction Detection). Растущие деревья (Boosted trees). Случайные леса (Random forests). Методы машинного обучения (machine learning). Метод опорных векторов. Байесовские методы. дискриминантный анализ. регрессионный модели.Логистическая регрессии. обобщенные аддитивные модели.)
Регрессионный анализ. Линейная и нелинейная регрессия (регрессионный анализ. Регрессионный модели. Метод наименьшей квадратов. Система нормальных уравнений. Определение степени полинома при неизвестном классе функций. Расчет с использованием полиномов Чебышева. Линейная регрессии: расчет коэффициентов. Доверительная область для линии истинной регрессии. Нелинейная регрессии. Способы перехода к линейной регрессии.)
Анализ временных рядов (Ключевые понятия и определения. Классическая модель ARIMA (АРПСС) Экспоненциальное сглаживание с сезоннымы компонентами Спектральное разложение Фурье. Сезонная декомпозиция. Полиноминальный и регрессионный анализ лагов)
Оперативный анализ данных (OLAP) OLAP: витрины данных, кубы данных, многомерная модель данных: схема звезда, схема Снежинка, таблица фактов. Сравнительный анализ OLAP и OLTP. Способы реализации многомерной модели: MOLAP, ROLAP, HOLAP. Развертывание OLAP-кубов. Операции над OLAP-кубами (срез, вращение, консолидация, детализации).
Дисперсионный анализ (Дисперсионный анализ: однофакторный, двухфакторный, Критерии Кохрана, Бартлет. Многофакторный дисперсионный анализ: латинские квадраты)
 
Нейронные сети. Карты Кохонена (Ключевые понятия и определения Архитектура сетей, обучение Использование нейронных сетей в ПРОГНОЗИРОВАНИИ, задачах классификации и регрессии Карты Кохонена)
 
Методы кластерного анализа (иерархические методы: агломеративные и дивизимные методы. Итеративные методы.)
 
Метод ассоциативных правил (множество данных. Генерация множеств данных и правил. Корреляционный анализ. Алгоритм Apriori.)
 
Генетические алгоритмы. Эволюционные стратегии.
 
Инструменты интеллектуального анализа данных (Программное обеспечение Data Mining. Основные сложности Data Mining. Направления Data Mining: Text Mining, Web Mining, Spatial Mining, Temporal Mining.)
 
Задача визуализации данных (Способы визуального представления данных. Методы визуализации, способы представления информации в одно-, двух-, трехмерно измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации.
Список літератури: 

 

 

  • Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; and Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to ImplementationPrentice HallISBN 0-13-743980-6
  • Feldman, Ronen; and Sanger, James; The Text Mining HandbookCambridge University PressISBN 978-0-521-83657-9
  • Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and SystemsKluwer Academic Publishers
  • Hastie, TrevorTibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
  • Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining ApplicationsAcademic Press/Elsevier, ISBN 978-0-12-374765-5
  • Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science ReferenceISBN 978-1-59904-162-9
  • Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data MiningISBN 0-321-32136-7
  • Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data MiningMorgan Kaufmann
  • Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  • Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum
  •  
ІНСТИТУТ ВИСОКИХ ТЕХНОЛОГІЙ Матеріали дозволено використовувати на умовах GNU FDL без незмінюваних секцій та Creative Commons Attribution/Share-Alike
Дизайн: Інститут високих технологій
Ivan Ivanov