Занятие 1
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Вспоминаем линейную алгебру. Некоторые матричные разложения. Спектр матрицы. SVD. Skeleton. Градиент. Гессиан
Занятие 2
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Матрично-векторное дифференцирование. Автоматическое дифференцирование. Forward\Reverse Mode. Вычислительный граф
Занятие 3
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Выпуклость. Выпуклые, афинные множества. Сумма Минковского. Выпуклые функции. Неравенство Йенсена
Занятие 4.1
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Сопряженные множества. Сопряженные конусы. Многогранники
Занятие 4.2
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Сопряженные функции. Преобразование Лежандра
Занятие 5
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Субградиент. Субдифференциал. Теоремы Моро-Рокафеллара, Дубовицкого-Милютина. Условия оптимальности в субдифференциальной форме
Занятие 6
Условия оптимальности. Функция Лагранжа. Множители Лагранжа. Теорема Каруша - Куна - Таккера
Занятие 7
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Двойственность. Введение в двойственность. Двойственная задача. Two-way partitioning problem. Решение прямой задачи с помощью двойственной
Занятие 8
📄 Презентация • 📝 Заметки • ▶️ Youtube • 💿 Скачать
Линейное программирование. Транспортная задача и другие формулировки прикладных задач как ЛП. Симплекс метод для решения ЛП
Занятие 9
Двойственность в линейном программировании. Анализ чувствительности.
Занятие 10
Классификация и обозначения в задачах оптимизации. Скорость сходимости. Линейный поиск. Неточная одномерная оптимизация. Правила Армихо - Гольдштейна. Условие Вульфа
Занятие 11
Градиентный спуск. Теоремы сходимости в гладком случае (выпуклые, сильно выпуклые, PL).
Занятие 12
Нижние оценки для градиентных методов. Ускоренные градиентные методы. Полиномы Чебышева. Метод Поляка, Нестерова.
Занятие 13
Метод сопряженных направлений. Ортогонализация Грамма - Шмидта. Понятие $A$-ортогональных векторов. Метод сопряженных градиентов
Занятие 14
Концепция методов адаптивной метрики. Метод Ньютона. Квазиньютоновские методы
Занятие 15
Градиентные методы в условных задачах оптимизации - метод проекции градиента. Метод Франк - Вульфа. Идея метода зеркального спуска
Занятие 16
Субградиентный метод. Теоремы сходимости в негладком случае (выпуклый случай). Особенности работы градиентного метода в практических негладких задачах. Задача наименьших квадратов с $l_1$ регуляризацией. Метод проекции субградиента. Метод зеркального спуска.
Занятие 17
Проксимальный градиентный метод.
Занятие 18
Введение в стохастические градиентные методы. Батч, эпоха. Сходимость SGD. Методы редукции дисперсии: SAG, SVRG.
Занятие 19
Практичные стохастические градиентные методы. Адаптивные градиентные методы. AdamW. Матричные методы. Muon, Shampoo, NanoGPT speedrun, AlgoPerf banchmark
Занятие 20
Удивительные сюжеты из мира обучения нейросетей с точки зрения методов оптимизации. Проекция функции потерь нейронной сети на прямую, плоскость. Инициализация. Grokking. Double Descent. Обобщающая способность моделей машинного обучения.
Занятие 21
Вопросы обучения больших моделей. Lars, Lamb. Learning rate schedulers. Warm-up, Cooldown. MultiGPU training. Large batch training. Чекпоинтинг активаций.
Занятие 22
Двойственные методы оптимизации. Прямо-двойственные методы. Метод двойственного градиентного подъёма. Метод модифицированной функции Лагранжа. ADMM.
Занятие 23
Методы оптимизации в непрерывном времени. Gradient Flow. Accelerated Gradient Flow. Stochastic gradient flow. Central Flow.