Основы математического анализа и линейной алгебры
Вектор, скалярное и векторное произведение, линейная оболочка.
В школе нам говорят, что вектор - направленный отрезок, в университете, что это элемент векторного пространства с заданными свойствами, нам будет удобно представлять вектор как набор чисел, записанных в строку.
Определение.
Вектор - строка чисел
| |
| Кодировка цвета в RGB | Изображение
Сложение векторов происходит покомпонентно:
НЕ путать операцию сложения с операцией + в python, которая сделает "присоединение":
Умножение вектора на число также покомпонентно:
Определение.
Линейная комбинация векторов - выражение
Определение.
Линейная оболочка множеств векторов - множество всех линейных комбинаций заданных векторов.
Определение.
Базис пространства -- набор максимального количества линейно независимых векторов. С помощью линейной комбинации этих векторов можно представить любой элемент векторного пространства. Самым простым примером базиса двумерного пространства являются векторы
Численно линейная комбинация выглядит так:
Пример: аудиодорожка по каждому инструменту представляет собой отдельный вектор, умножая каждый из них на коэффициент, отвечающий за громкость,"дирижёр" сводит аудиодорожку из всех инструментов к гармоничному звуку. Если все коэффициенты равны 1, то линейная комбинация есть просто сумма векторов. Произведение весов на векторы в нейросети -- пример линейной комбинации векторов.
Что такое скалярное произведение векторов и откуда оно взялось?
Оказался одним из самых сложных вопросов. Я придерживаюсь мнения, что математика и её конструкций рождались из реальной жизни и поставленных физиками задач, так и получилось в этот раз: скалярное произведение - это работа, которую делает один вектор в направлении другого вектора.
Предположим, что нам надо найти работу, которую совершает сила
где
Далее, пусть на тело действуют две силы:
Вывод: работа равнодействующей силы равна сумме работ каждой из сил в отдельности. Иными словами, приложенные к телу силы складываются векторно, а их работы --- алгебраически. Отсюда следует переход от произведения векторов к скаляру.
Итого: проекцию, взятую со знаком, одного вектора на линию, содержащую второй вектор, умножаем на второй вектор, полученный результат - скалярное произведение данных двух векторов. Скалярное произведение может быть отрицательным, это показатель того, что векторы направлены в разные стороны.
Как численно работать со скалярным произведением?
Посмотрим, что происходит, если разложить векторы по базису и перемножить в таком виде:
учитывая, что
то есть для нахождения скалярного произведения мы просто покомпонентно умножаем соответствующие координаты векторов и складываем полученные произведения.
Интересный пример применения скалярного произведения: есть два множества А и В, зададим векторы, отвечающие за вхождение каждого элемента в множество:
Следующее понятие - векторное произведение, как сказали специалисты, появилось из алгебры умножения кватернионов, но в данном вопросе мы не будем глубоко вникать в теорию и просто ограничимся геометрическим смыслом и применением этого понятия.
Определение.
Векторное произведение векторов
Векторное произведение применяется для более быстрого подсчёта площадей и для проверки коллинеарности трёхмерных векторов.
Матрица, определитель и след матрицы, норма.
Определение.
Матрица - прямоугольная таблица чисел.
С другой стороны, матрицу можно рассматривать как набор векторов. Интересна интерпретация матрицы как объекта, задающего линейное преобразование пространства. Если векторы
то матрицей перехода от базиса
Матрица представляет собой набор векторов, поэтому при умножении матрицы на вектор умножаем каждый вектор из матрицы скалярно на заданный вектор.
Рассмотрим две полезные матрицы преобразований: растяжение вдоль осей и поворот против часовой стрелки. Если нам нужно растянуть вектор вдоль каждой оси, то ставим на диагонали соответствующие коэффициенты растяжения. Так, матрица растянет векторы вдоль оси
Поворот на угол
Произведение матриц представляет собой последовательное применение преобразований к векторам, просто для удобства придумали правило "строчка на столбик" и соответствующую запись и расположение (обратим внимание, что умножение матриц не симметрично!) при умножении матрицы на вектор и матрицы на матрицу.
Разберём на примере: есть пространство
совершили преобразование над
базисом
найдём, в какой вектор перейдёт
Логично, что сохранится линейная комбинация:
если записать это в другом виде, а именно зададим матрицу перехода
тогда разумно представить результат преобразования вектора
Что именно происходит при последовательном преобразовании пространства (произведение матриц): есть две фиксированные координатные оси cо стандартным базисом единичных взаимно перпендикулярных векторов, в тех же осях
Несколько типов матриц, которые понадобятся нам в дальнейшем:
- Единичная
- на главной диагонали стоят 1, в остальных местах 0. - Транспонированная
- все элементы матрицы переставляются симметрично относительно главной диагонали. - Обратная матрица
: . - Унитарная матрица
: . Строки и столбцы такой матрицы образуют ортонормированный базис, а преобразование, заданное унитарной матрицей, сохраняет длины всех векторов и скалярное произведение.
Одна из характеристик матрицы называется определителем. Абсолютную величину определителя можно рассматривать как меру сжатия или расширения пространства матрицей. Если определитель равен 0, то пространство полностью сворачивается хотя бы по одному измерению, то есть теряется весь объём. Если определитель равен 1, то преобразование сохраняет объём.
Наиболее простая формула для нахождения определителя через разложение по
где алгебраическое дополнение
Получается, что модуль определителя
Ранг матрицы --- это истинная (максимальная) размерность пространства, для которого определитель не равен нулю. Если
Собственный вектор - не меняющий своё направление при преобразованиях. Он может только "растянуться" вдоль своего же направления, коэффициент, на который растянется, называется собственным значением:
| |
| :--: |
|Собственный вектор - красный|
Метод поиска собственных векторов очень простой:
все корни последнего уравнения (его называют характеристическим)
Но если у матрицы размерность больше 2, решать характеристические уравнения высоких степеней не всегда просто, поэтому придумали пару критериев подбора решений:
- Сумма собственных значений с учётом кратности (след матрицы) равна сумме диагональных элементов.
- Произведение собственных значений равно определителю матрицы
. - Для треугольных матриц собственные значения совпадают с диагональными элементами.
Надо понять, как упрощать действия и операции при работе с матрицами. Самое простое - разложить их на более простые объекты (аналог - разложение числа на простые множители). Алгебрически очень просто построить спектральное разложение перемножив матрицы в правильном порядке:
Норма - функция, которая показывает, как считать длины в данном конкретном случае, то есть обобщает понятие длины или абсолютного значения. Другими словами норма - расширение знакомого со школы понятия модуля числа. Напомним, что геометрическая интерпретация модуля числа - расстояние от нуля до заданного числа. Самым показательным примером для понимания показалась конструкция манхэттенкой нормы: для таксиста расстояние от точки
диагонали нельзя. Алгебраически манхэттенская норма
Эта норма часто используется в машинном обучении, когда важно различать
элементы, в точности равные нулю и мало отличающиеся от нуля. Всякий раз
как элемент вектора
увеличивается на
Приведём примеры классических норм и их представления как *единичных
окружностей*: манхэттенская норма
норма
Норма вектора - аналог длины вектора, которая находится по Теореме
Пифагора:
Отметим, что также норму можно записать через скалярное произведение
Норма матрицы показывает, насколько максимально растягивается вектор
при отображении
Аналогом Евклидовой нормы для векторов служит норма Фробениуса для
матриц:
Метод главных компонент. SVD - разложение матриц.
Если говорить максимально просто, то Метод главных компонент - это метод
выбора подпространства меньшей размерности с минимальной потерей данных.
А сингулярное разложение (Singular Value Decomposition) - метод, который
используется для такого выбора.
Итак, у нас есть множество данных, представим их как точки в
пространстве, наша задача - найти такое подпростанство, *проекция на
которое* сохранит максимальный разброс точек. Потом приблизим эту
проекцию эллипсом, в который попадут максимальное количество
точек. Остальные точки воспринимаем как шум.
В общем, многомерном случае, процесс выделения главных компонент
происходит так:
- Ищется центр облака данных, и туда переносится новое начало
координат -- это нулевая главная компонента (PC0)
- Выбирается направление максимального изменения данных -- это первая
главная компонента (PC1)
- Если данные описаны не полностью (шум велик), то выбирается еще одно
направление (PC2) -- перпендикулярное к первому, так чтобы описать
оставшееся изменение в данных и т.д.
Для наглядности рассмотрим проекцию двумерного пространства на прямую
линиию, проходящую через начало координат. Будем искать такую линию,
чтобы расстояния от точек до неё были минимальными. Отметим, что похожей
задачей по наилучшему приближению является метод наименьших квадратов,
но он минимизирует расстояние по вертикали от точки до прямой.
Расстояние от начала координат до точки фиксировано, значит, по теореме
Пифагора, для уменьшения расстояния от точки до прямой, нам надо
увеличить длину проекции вектора, соединяющего начало координат с
выбранной точкой.
Теперь вспомним, что если проекцию вектора мы умножим на единичный
направляющий вектор
произведение координаты точки
вектора
квадратов проекций всех точек на выбранное направление как
Среди всех единичных векторов найдём тот, который максимизирует
единичным вектором, а значение
первым сингулярным значением матрицы
квадратов проекций точек на прямую, заданную
перпендикулярный
Получаем множество правых единичных векторов с матрицей
Множество левых сингулярных векторов определим как образы правых
векторов при действии на них матрицей
векторов
А теперь соберём всё воедино и поймём все названия. Итак: у нас есть
единичная окружность и векторы
подействовав на них матрицей
заданными векторами
которой стоят числа
получили сингулярное разложение матрицы
умножаются справа, левые - слева, а по центру стоит диагональная матрица
из сингулярных значений. По-другому можно сказать, что такое разложение
представляет поворот, растяжение и снова поворот пространства.
Алгоритм SVD-разложения матрицы
- Составляем матрицу
и находим её собственные значения
- Находим собственные векторы
, соответствующие
значениям
их как столбцы в матрицу
- Строим векторы
и дополняем любыми
векторами до ортонормированного базиса
их как столбцы в матрицу
- Записываем разложение
.
Сингулярное разложение матрицы используется для уменьшения объёма
памяти, требуемого для хранения изображения. На рисунке (d) сложно
отличить реконструкцию от оригинала, но точности восстановления
достаточно для получения необходимой информации. Объём памяти, требуемый
для изображения снижается в 3 раза с 751 кб до 252 кб.
Очень подробный пример на метод главных компонент в статье
http://math-info.hse.ru/f/2015-16/ling-mag-quant/lecture-pca.html
Предел, производная, дифференциал. Производная по направлению, градиент. Первообразная, интеграл. Производные высших
порядков, максимум и минимум проверхности, ряд Тейлора.
На мой взгляд, основная идея или метод решения задач в математическом
анализе состоит в замене функций, с которыми тяжело работать, на близкие
к ним (с устраивающей нас разницей/погрешностью приближения), которые
уже давно изучены и понятны, то есть с которыми работать легко.
В жизненных задачах как правило нам не нужно знать само точное значение,
а достаточно понимать порядок (количество цифр в записи числа) или
приближение с нужной нам точностью. Приведём пример с покупкой квартиры:
предположим, что она стоит 9 987 567 рублей, но нам легче округлить до
10 миллионов, поскольку это проще и понятнее воспринимается. Но есть
тонкий момент: 8 987 567 мы тоже можем округлить до 10 миллионов, только
порядок округления может не всех устроить. В первом случае мы прибавили
около 100 000, что составляет 0,01 от исходной цифры, а во втором случае
- около 1 100 000, что составит уже 0,1 от исходной цифры, а такое
приближение уже не все могут себе позволить.
Лучше идеи с переходом к окрестности точки ещё никто не смог придумать,
логика такова: надо определить понятие *максимально близких
точек*, то есть расстояние между которыми очень близко к нулю, или
другими словами, они находятся в одном интервале, длина которого очень
маленькая. В терминах математики:
интервал
число. А дальше заменяем значение функции в точке на значения функции в
точках, максимально близких к рассматриваемой, или из той же
окрестности.
Строгое определение: число
положительного числа
Итак, точки мы заменяли на близкие им точки, а функции будем заменять на
близкие им функции.
Напомним определение: функция - правило, по которому одному числу из
множества
Функция может быть задана: таблицей, графиком, формулой, алгоритмом.
Чаще всего мы работаем с формулами и графиками.
Теперь у нас стоит задача: понять, где функция растёт, где убывает, в
каких точках достигает максимальное и минимальное значения. Если у нас
есть график, то всё просто видно, а вот если функция задана формулой,
причём довольно сложной, нужно придумывать обходные пути.
Для начала определимся, как понимать рост функции
при увеличении
наоборот, при увеличении
определим как именно функция возрастает, то есть с какой скоростью. Из
физики мы помним, что скорость - это искуственно введённая величина,
которая показывает какую часть расстояния мы преодолели за единицу
времени. В терминах нашей задачи нас интересует мгновенная скорость: как
изменился
увеличили
изменится
Итак, зафиксируем точку
с близкими точками, когда
превращается в касательную, проходящую через эти слипшиеся
точки. Осталось воспользоваться понятием предела и получить итоговое
определение:
Производной функции
показывает скорость роста исходной функции в окрестности данной точки:
Геометрически получается, что это отношение как раз есть тангенс угла
наклона касательной
Другими словами, мы приближаем нашу функцию касательной, проходящей
через точку
сказать, что происходит с функцией: касательная идёт вверх
уже давно посчитали учёные) и точки, в которых функция определена, а
производная - нет. Далее выбираем те точки, в которых производная меняет
знак.
Если первая производная - это скорость роста функции или тангенс угла
наклона касательной к графику функции, то вторая производная -
ускорение, или скорость роста тангенса угла наклона касательной.
Получается, что если тангенс растет, то касательная огибает
график, заворачиваясь влево, если тангенс убывает, то касательная
заворачивается вправо. Вторая производная позволяет находить точки
перегиба: в самой точке первая производная
существует, но слева и справа от точки перегиба вторая производная
Теперь посмотрим на график и заметим, что при замене функции
касательной, расстояние
ординаты касательной к графику функции:
функции
Физический смысл дифференциала: если бы тело сохранило набранную
скорость
словами, в физической задаче мы заменим движение с ускорением на
равномерное движение и будем искать пройденный путь через эту постоянную
скорость. Производную можно рассматривать как отношение дифференциалов
функции и её аргумента.
Скоцентрируем внимание на различии:
аргумента на
аргумента на
В трёхмерном случае касательная линия заменяется на касательную
плоскость и дифференциал показывает приращение аппликаты касательной
плосткости.
Самым общим случаем замены функции в окрестности точки является
Ряд Тейлора - по сути приближение с нужной точностью
окресности точки
соответствующим весом - скоростью роста или производной - сначала
линейной с весом скорости, потом параболой с весом ускорением и так
далее.
Новые задачи: есть холм, нам надо максимально быстро взобраться на него,
а так же изобразить трёхмерную фигуру на плоскости. Обе эти задачи
помогает решить градиент.
Начнём с изображения.
Первая мысль - сделать срезы через равные промежутки по высоте. Такие
срезы называются линями уровня, то есть кривые, на которых
функция принимает одно и то же значение
проблема - на такой картинке один и тот же холм по форме, но выпуклый
или вогнутый, визуально будет выглядеть одинаково.
Разумно ввести направление вверх или вниз. Возьмём точку и посмотрим
поведение заданной функции в данной точке. Для этого *направим во все
стороны* векторы из этой точки и посмотрим как изменяется функция
вдоль направления каждого вектора
роста отвечает производная, то есть создадим векторное поле *с
весами*
выбранное напрвление
Заметим, что данное выражение максимально, когда
совпадает с направлением вектора
Итак, одна из интерпретаций градиента (обозначение
правило, по которому мы строим векторное поле с весами
скалярное поле в векторное.
Производную по направлению можно также рассматривать как скалярное
произведение градиента и заданного направления
Ещё можно встретить интерпретацию градиента, как вектора, указывающего
направление наискорейшего роста функции.
Отметим, что в каждой точке свой вектор-градиент, его началом будет эта
точка, а направление совпадает с направлением наискорейшего роста
функции, модуль вектора-градиента показывает скорость изменения функции
в заданной точке.
2
Итого для изображения трёхмерных поверхностей на плоскости вводим
вектор-градиент, который покажет направление роста, а также цветовую
шкалу синий - минимальные значения (показатель глубины), красный -
максимальные (показатель высоты). Представленные таким образом
поверхности выглядят уже хорошей интерпретацией:
Разберёмся с градиентом в более строгой математической форме: итак, нам
надо понять, как описать рост поверхности, заданной уравнением
и производную:
То есть рост функции
вдоль осей
неё два вектора, параллельные
сдвиг вдоль этой плоскости будет равен
В терминах скалярного произведения градиент - это функция от вектора,
равная скалярному произведению
что вектор-градиент лежит в плоскости векторов
градиента любой скалярной функции
произведение с бесконечно малым вектором перемещения
дифференциал этой функции при соответствующем изменении координат в
пространстве, на котором определена
общего положения она же главная) часть изменения
Модуль градиента показывает максимальную скорость изменения функции в
окрестности, то есть частоту линий уровня. Например, линии уровня высоты
изображаются на топографических картах, при этом модуль градиента
показывает крутизну спуска или подъёма в данной точке.
Градиент - вектор, направленный по нормали к поверхности уровня в
сторону наибольшего возрастания функции и по модулю равный скорости
изменения функции.
Теперь разберёмся с производными второго порядка:
2
Надо понять, как искать максимум и минимум функции, заданной в
трёхмерном пространстве
экстремума первые производные
существуют, так как при проекциях на плоскости
экстремума остаются точками экстремума. Решаем систему уравнений
окрестностях этих точек приблизим данную поверхность по формуле Тейлора
до второго порядка:
1) если
2) если
3) если
4) если
исследования через производные третьего порядка и т.д.
Обобщением на
Якобиан отвечает за линейное приближение касательной плоскостью,
определитель матрицы первых частных производных:
Гессиан отвечает за обобщённую локальную кривизну - приближение
квадратичной формой, определитель матрицы вторых частных производных:
Метод множителей Лагранжа. Метод Каруша-Кунна-Таккера.
Под условным экстремумом понимают максимальное или минимальное значение
функции
Рассмотрим поверхность вращения
и её сечение поверхностью
кривой, например, параболой или эллипсом, понятно, что нижняя точка их
пересечения - минимум
Вспомним про линии уровня: если спроецирировать картинку на плоскость
в которой пересекаются касательная к линии уровня и касательная к
параболе.
Таким образом задача сводится к отысканию такой точки линии уровня, в
которой функция принимает экстремальное значение, причем сравниваются
значения функции только в точках рассматриваемой линии.
Надо понять, как находить эти точки максимума и минимума аналитически.
Так как обе функции пересекаются в одной точке, то касательная,
проходящая через эту точку, общая для обеих функций. Вспомним также, что
градиент показывает направление наискорейшего роста функции, а также
перпендикулярен к линиям уровня и к касательным, проходящим через
указанную точку.
Получаем важный факт:
то есть пропорциональны или
систему уравнений $$\left{\begin{array}{llcc}
\frac{\partial f}{\partial x} (x_0) = \lambda \frac{\partial \phi}{\partial x} (x_0), \\
\frac{\partial f}{\partial y} (y_0) = \lambda \frac{\partial \phi}{\partial y} (y_0), \\
\phi(x_0,y_0) = 0
\end{array}\right.$$
Лагранж вводит новую функцию
является такой сдвинутой функцией
экстремум
производные функции
поиска условного экстремума функции
$$\left{\begin{array}{llcc}
\dfrac{\partial f}{\partial x}\Big|_{(x_0,\;y_0)} & +\lambda_0 \cdot \dfrac{\partial\phi}{\partial x}\Big|_{(x_0,\;y_0)} & = & 0, \\
\dfrac{\partial f}{\partial y}\Big|_{(x_0,\;y_0)} & +\lambda_0 \cdot \dfrac{\partial\phi}{\partial y}\Big|_{(x_0,\;y_0)} & = & 0, \\
& \phi(x_0,\;y_0) & = & 0.
\end{array}\right.$$
Обобщением метода множителей Лагранжа на случай ограничений в виде
неравеств называется Метод Каруша-Куна-Таккера и заключается в
следующем: надо найти многомерную величину с неотрицательными
компонентами
функции
Вводим функцию Лагранжа
чтобы
условия:\
1)
2) условия нежёсткости
3)
Метод наименьших квадратов. Метод градиентного спуска.
Как мы уже говорили, основная идея большинства изучаемых нами
математических методов сводится приближению или замене сложных
для понимания исследуемых функций на более простые и уже изученные с
заданной точностью. Самым явным примером применения этой идеи является
метод наименьших квадратов, которым активно пользуются физики и
экономисты. Сразу оговорим, что под наименьшими квадратами
подразумевается минимизации суммы квадратов погрешностей приближения.
Есть серия данных, полученных во время опыта, их можно записать в виде
таблицы и изобразить на графике. Если точки на графике
группируются вокруг прямой
коэффициенты при помощи вычислений.
Если
значения ординаты, тогда определим погрешности вычисления как
Наша задача: подобрать коэффициенты
погрешностей
наименьших возможных
Получаем систему для нахождения коэффициентов
$$
\begin{cases}
a \sum_i x_i^2 + b \sum_i x_i = \sum_i x_i y_i \\
a \sum_i x_i + bn = \sum_i y_i
\end{cases}
$$
Аналогичным образом получаем систему уравнений для нахождения
коэффициентов при приближении параболой
$$
\begin{cases}
a \sum_i x_i^4 + b \sum_i x_i^3 + c \sum_i x_i^2 = \sum_i x_i^2 y_i \\
a \sum_i x_i^3 + b \sum_i x_i^2 + c \sum_i x_i = \sum_i x_i y_i \\
a \sum_i x_i^2 + b \sum_i x_i + cn = \sum_i y_i
\end{cases}
$$
Метод градиентного спуска - алгоритм для нахождения минимума функции
подъёма, соответственно, двигаясь в противоположном направлении, будем
максимально быстро спускаться.
Идея следующая: выбираем стартовую точку
направления, противоположного градиенту, с заранее заданной длиной шага
помещаем в точку
На каждом шаге проверяем, уменьшилось ли значение функции и насколько.
Если значение функции уменьшается больше заданной точности
то берём точку
последующем шаге будет мало отличаться от значения на предыдущем шаге:
За меру близости к минимуму удобно принять сумму абсолютных значений производных
Есть проблема выбора длины шага
поиск), мы будем двигаться слишком медленно и процесс займёт слишком
много времени, а если
рискуем перескочить через минимум и попасть в другую яму, менее
глубокую.
Для разумного сочетания быстроты и точности предлагается чередовать
грубый и точный поиск в зависимости от того, насколько далеко мы
находимся в данный момент
-
если
, то увеличиваем -
если
, то уменьшаем -
если
, то поиск окончен.
Первообразная, интеграл.
Теперь рассмотрим обратную задачу: у нас есть функция
формула), которая является производной какой-то функции
как найти эту функцию
Из определения производной можем найти только разность двух состояний:
Попробуем интерпретировать задачу в терминах физики: получается, у нас
есть скорость
заданном участке пути. Но как всегда есть нюанс: мы знаем только
скорость, но эта скорость может быть на любом участке пути, с одной и
той же скоростью мы можем ехать по трассе Москва-Санкт-Петербург или
Воронеж-Сочи. То есть сама координата нам не даст никакой информации,
так как мы не знаем начало системы отсчёта (напоминает принцип
Неопределённости Гейзенберга). А вот разность двух состояний/координат
покажет, путь какой длины мы проехали.
Ещё одна аналогия из физики: потенциал сам по себе не несёт существенной
информации - это работа по перемещению из бесконечно удалённой точки в
точку
раз представляет разность потенциалов
Итого, первообразная
которая подгоняется как обратное действие к операции
дифференцирования при помощи таблицы производных. Общей формулы для
нахождения первообразных, аналогичной формуле для вычисления производной
частного и произведения, не существует. Отметим, что такая функция
определена с точностью до константы или представляет собой семейство
параллельных функций: если
первообразная, где
*Строгое определение: первообразной для функции
функция
Вернёмся к задаче о нахождении пройденного пути через известную
скорость. В физических терминах
тут мы как раз используем дифференциал - разбиваем весь путь на очень
маленькие промежутки по времени, и на каждом из таких промежутков
рассматриваем движение как равномерное - с одной и той же скоростью
(приближение линейной функцией), на графике это как раз будет площадь
прямоугольника со сторонами
А весь пройденный путь как раз равен сумме таких кусочков:
непрерывном случае назвали интегрированием. Отсюда получаем известный
всем факт, что определённый интеграл равен площади под графиком функции.
Воспользуемся площадью как функцией: берём одну из первообразных
от неё вправо, получим функцию от конца пути или верхнего
предела интегрирования, которая как раз покажет путь от
Отметим, что мы описали путь поиска первообразной и такое представление
доказать, что
Немного отвлечёмся на факт, который называется *первая теорема о
среднем*, строгое доказательство можно найти в любом учебнике, нас
интересует суть и физическая интерпретация:
*Первая теорема о среднем: пусть
Пройденный путь можно найти как среднюю скорость
затраченное время
определения средней скорости. Причём существует такой момент времени
понятный интуитивно факт.
Итак, строго математически докажем, что функция
$$\begin{gathered}
F'(x_0) = \lim_{x \to x_0} \frac{F(x) - F(x_0)}{x-x_0} = \lim_{x \to x_0} { \frac{\int_{a}^{x} f(t)\,dt - \int_{a}^{x_0} f(t)\,dt}{x-x_0} } = \\
= \lim_{x \to x_0} {\frac{\int_{x_0}^{x} f(t)\,dt}{x-x_0} } = \lim_{x \to x_0} {\frac{f(c)(x-x_0)}{x-x_0} } = \lim_{x \to x_0} {f(c)} = f(x_0)\end{gathered}$$
Последний переход обосновывается тем, что точка
одну.
Дискретные и непрерывные случайные величины. Функции плотности и распределения.
Начнём с того, что теория вероятности занимается массовыми явлениями.
Когда проводится большое количество одинаковых экспериментов, и на
основе полученных данных можно делать какие-либо выводы.
Случайная величина
какому-либо происходящему событию число. То есть у нас произошло
какое-то событие, и мы можем его численно интерпретировать.
Дискретной случайной величиной называется случайная величина, которая в
результате испытания принимает отдельные значения с определёнными
вероятностями. Проще говоря, дискретные случайные величины --- это
величины, множество значений которых не более, чем счётно. Число
возможных значений дискретной случайной величины может быть конечным и
бесконечным. Примеры дискретной случайной величины: выпадение орла или
решки при подбрасывании монеты или выпадение определённого числа на
игральном кубике.
Непрерывной случайной величиной называют случайную величину, которая в
результате испытания принимает все значения из некоторого числового
промежутка. Число возможных значений непрерывной случайной величины
бесконечно. Пример непрерывной случайной величины: измерение скорости
перемещения любого вида транспорта или температуры в течение конкретного
интервала времени.
Вероятность можно рассматривать как обобщение логики на рассуждения в
условиях неопределенности. Логика дает нам набор формальных правил,
позволяющих определить, истинно некоторое высказывание или ложно, в
зависимости от предположения об истинности или ложности других
высказываний. Теория вероятностей предлагает набор формальных правил для
определения правдоподобия высказывания при условии правдоподобия других
высказываний.
Чтобы оценить правдоподобие высказывания, делают серию наблюдений,
результаты записывают, и дальше встаёт вопрос: как обработать все данные
и делать какие-либо выводы? Разумно записать в таблицу все значения
случайной величины и сколько раз встречается каждое значение - это
частота событий. Но, как мы понимаем, просто частота не даёт информации:
например, в рулетке зеро выпал 20 раз - на основании такой
информации сложно сделать какой-либо вывод, а вот *в рулетке зеро
выпал 20 раз из 21 и в рулетке зеро выпал 20 раз из 200* -
важное дополнение, при помощи которого можно сделать ставку. Поэтому
более информативно узнать долю, которую занимает интересующее нас
значение из общего количества всех значений случайной величины - это
относительная частота (из определения понятно, что она заключена в
отрезке [0;1]). Отметим, что относительная частота рассчитывается
исключительно ПОСЛЕ опытов на основе фактически полученных данных и
совпадает с вероятностью. Из определения следует, что если все события
независимы, то сумма относительных частот (вероятностей) равна 1.
Если мы имеем дело с непрерывными случайными величинами, то нам нужно
как-то оценить количественно исходы событий, а раньше мы обсуждали, что
за количество элементов в множестве отвечает функция меры, поэтому под
вероятностью в общем случае логично понимать отношение
Мерой чаще всего выступает длина отрезка, площадь или объём фигуры.
Теперь разберёмся, как распределена случайная величина: в жизненных
задачах редко нужно знать, в какое единственное значение попадает
случайная величина, чаще нас интересует интервал или отрезок. Математики
придумали следующую конструкцию: зафиксируем левый конец интервала
небольшими шагами вправо и смотреть, сколько новых значений
случайной величины попадает в каждый такой интервал. Очевидно, что их
количество будет не уменьшаться, и общее количество точек можно
представить как вес или массу множества значений
случайной величины.
Более строго математически: вводим новую случайную величину
её вероятность
показывает вероятность попадания значений случайной величины в нужный
нам интервал
оси значения случайной величины
величина и её значения фиксированы). Итого получаем функцию
распределения случайной величины
удобными свойствами: неубывающая,
Из такой конструкции легко понять, как находить вероятность попадания
точки в полуинтервал
Рассмотрим три случайных события
последнее есть сумма первых двух, тогда по теореме о сложении
вероятности
распределения
Ньютона-Лейбница и наталкивает на мысль о представлении вероятности
через интеграл.
Ещё раз обратим внимание на названия плотность и масса.
В физике мы интегрируем плотность для получения массы. Если думать о
функции распределения как о массе, то для её получения как раз и нужно
проинтегрировать плотность. Осталось дать понятие термину
плотности в терминах вероятности.
Плотность из физики показывает насколько близко друг к другу расположены
точки, свяжем это с изменением функции распределения
функция распределения растёт быстро, то есть точки прибывают,
они расположены близко - плотность высокая, если растёт медленно, то
новых точек мало, а если остаётся неизменной - новых точек нет совсем
Также если функция распределеня дифференцируема, то плотность как раз
будет производной функции распределения:
Смысл функции
поппадет в малый интервал
неограниченный интервал гарантировано.
Итого получили формулы взаимосвязи:
Последнее условие есть условие нормировки. Состояния физической системы
всегда однозначны, то есть образуют полную совокупность событий. Условие
нормировки для вероятности состояния физической системы отражает факт:
если физическая система существует, то она находится в одном из
доступных ей состояний.
Заметим, что для дискретной случайной величины понятие плотности
вероятности отсутствует, а функция распределения будет ступенчатой.
Поэтому с дискретными случайными величинами удобнее работать с набором
вероятностей или таблицей, в то время как для непрерывных случайных
величин проще анализировать график или уравненение функции плотности и
функции распределения.
Байесовский подход к вероятности.
Для лучшего понимания рекомендую прочитать статью [*Скажи Байесу
да!. Забудь про интуицию --- просто думай, как Байес
завещал*](https://nauka.tass.ru/sci/6815287)
В предыдущей главе мы обсуждали случаи с частотной вероятностью - когда
у нас есть эксперимент, который мы можем повторить, например,
подбрасывание монеты или кубика. А когда, например, говорят про диагноз
у конкретного человека, мы не можем размножить человека,
заразить его разными болезнями и сравнить результаты эксперимента. То
есть в данном случае под вероятностью следует понимать степень доверия и
восприятия информации: 0 - абсолютно невозможно, 1 - точно истино.
Подход, основанный на качественном уровнем уверенности, предложил Байес. Байес по сути говорит, что вновь полученная информация влияет на наше восприятие какого-то события, и вероятность по сути - численное редставление личного уровня доверия, который может кардинально измениться вследствие количества наступивших событий. Старое знание +
новый опыт = новое, более полное знание.
Рассмотрим принцип Байеса на конкретном примере обработки спама,
получаемого по электронной почте. Мы получаем какое-то письмо, в котором
содержатся какие-то слова в каком-то количестве. Сначала мы просто
подсчитываем разные слова, входящие в это письмо, а потом определяем,
является письмо спамом или нет. Проделав это некоторое количество раз,
мы соберем базу слов вместе с частотой их появления в спаме и в обычных
письмах. В итоге получаем табличку, где записаны слово, количество его
упоминаний в спаме и общее количество упоминаний. Теперь введем понятие
веса слова --- вероятность того, что сообщение с таким словом
является спамом. Например, такой оценкой может быть частота появлений
этого слова в спаме, поделенная на частоту появлений этого слова в любом
произвольном письме. Теперь скажем, что вес всего письма --- это
усредненный вес всех слов, которые в нем содержатся. Дальше мы просто
говорим, что, например, если этот вес больше
это сообщение спамом. Мы получили новое письмо, определили спам это или
не спам, и к известным нам данным добавилось новое знание про слова,
встретившиеся нам в этом письме, поэтому мы запишем в нашу базу новые
показатели и пересчитаем веса.
Ещё раз подчеркнём, что ключевое отличие состоит в том, что считать
случайной величиной. В частотном или фриквентистском подходе мы под
такой величиной подразумеваем значение, которое мы не можем
спрогнозировать, не проведя какого-то количества экспериментов. В
байесовском же подходе случайная величина --- это строго определенный
процесс, который можно сначала спрогнозировать целиком, просто мы знаем
не все начальные факторы, которые могут влиять на исход. Но после
запуска этого процесса, мы получаем новые знания, которые
позволяют подкрутить настройки и сделать процесс более
эффективным, тем самым повысив наш уровень уверенности в получаемых
результатах.
Когда все события независимые, всё просто - вероятности складываются, а
если по предположению Байесу одно событие влияет на другое, возникает
вопрос, что делать в таком случае?
Колмогоров вводит условную вероятность по определению как
Далее по Байесу вводятся две вероятности:\
Априорная вероятность - предполагаемая вероятность до проведения
эксперимента
Апостериорная вероятность - вероятность, полученная после проведения
экспериментов и получения новой информации
Теорема Байеса предполагает, что событие
и нужно понять, как знание о событии
что произойдёт событие
Формула Байеса позволяет «переставить причину и следствие»: по известному факту события
вычислить вероятность того, что оно было вызвано данной причиной.
Доказательство следует напрямую из определения Колмогорова:
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}, P(B \mid A) = \frac{P(B \cap A)}{P(A)}, \quad \text{поделим:} \quad
\frac{P(A \mid B)}{P(B \mid A)} = \frac{P(A)}{P(B)}$$
Встаёт вопрос: условная вероятность была определена Колмогоровым в XX
веке, а Байес вывел свою теорему в XVIII веке? Единственное логичное
объяснение, которое удалось найти: Байес больше рассуждал в терминах
философии, и пришёл к Теореме о взаимосвязи явлений при помощи словесных
логических рассуждений, а Колмогоров вводил строгую аксиоматику и
определения таким образом, что Теорема Байеса логично вписалась во
введённую им терминологию.
Из определения условной вероятности следует цепное правило для подсчёта
совместного распределения вероятности нескольких случайных величин:
подробнее:
Полной противоположностью условному распределению является маргинальное
распределение подмножества набора случайных величин --- это
распределение вероятностей переменных, содержащихся в этом подмножестве.
Это даёт возможность представить вероятности различных значений
переменных в подмножестве без указания на другие значения переменных. То
есть снять зависимость одной величины от всех остальных:
Матричные разложения. Спектральное разложение. Сингулярное разложение.
Спектральное разложение - разложение матрицы
стоят собственные векторы,
которой стоят собственные значения. Зачем это делать - хочется для
удобства разложить матрицы на более простые объекты (аналог --
разложение числа на простые множители).\
Норма вектора:
Норма матрицы:
Норма Фробениуса для матриц:
Метод главных компонент - это метод выбора подпространства меньшей
размерности с минимальной потерей данных. А сингулярное разложение
(Singular Value Decomposition) - метод, который используется для такого
выбора. У нас есть множество данных, представим их как точки в
пространстве, наша задача - найти такое подпростанство, «проекция на
которое» сохранит максимальный разброс точек. Потом приблизим эту
«проекцию» эллипсом, в который попадут максимальное количество точек.
Остальные точки воспринимаем как «шум».\
Алгоритм SVD-разложения матрицы
- Составляем матрицу
и находим её собственные
значения
сингулярные числа
них диагональную матрицу
- Находим собственные векторы
,
соответствующие значениям
каждого вектора. Ставим их как столбцы в матрицу
- Строим векторы
и дополняем
любыми векторами до ортонормированного базиса
- Записываем разложение
.
Преобразование Фурье. Вейвлет-преобразование. Оконные функции.
Исторически задача появилась, когда надо было понять характер поведения закреплённой колеблющейся струны. Возникает проблема: как описать более сложные формы, можно ли более сложные формы представить как сумму простейших, в нашем случае - синусоидальных кривых.
Период - это длина
Частота - количество повторений в единицу времени. В нашем случае под частотой будем понимать
Фаза - это «сдвиг функции» от нулевого значения,
или координата пересечения оси
Амплитуда - длина максимального смещения вдоль оси
Далее все выводы и доказательства можно посмотреть в ее отдельном файле по преобразованию Фурье.
Первое представление разложения функции
Второе представление разложения функции
преобразуем некоторым образом коэффициенты из первого разложения):
Здесь
Это представление даёт возможность построить график зависимости амплитуды сигнала от частоты. На примере разложения мелодии по нотам частота - это ноты или те клавиши, на которые мы нажимаем, а амплитуда - сила, с которой мы нажимаем на каждую клавишу.
||
|:--:|
|График амплитуды в зависимости от времени|
||
|:--:|
|Спектр волны|
Пойдём дальше и вспомним формулу Эйлера - представление экспоненты через
синус и косинус:
Третье представление разложения
Всё, что мы делали ранее, относилось к периодическим функциям. Для
непериодических функций логично совершить предельный переход
теряет смысл, и разумнее перейти к новой частоте
На практике нельзя получить сигнал на бесконечном интервале, так как нет возможности узнать, какой был сигнал до включения устройства и какой он будет в будущем. Для моделирования сигнала как в реальной жизни ограничим интервала анализа, что равносильно произведению исходного сигнала на оконную функцию. Таким образом, результатом оконного преобразования Фурье является не спектр исходного сигнала, а спектр произведения сигнала и оконной функции.
Оконная функция - это математическая функция, которая имеет нулевое значение за пределами некоторого выбранного интервала, обычно симметричная вокруг середины интервала, близкая к максимуму в середине и сужающаяся от середины.
Оконное преобразование Фурье - это разновидность преобразования Фурье, определяемая следующим образом:
где
Ещё один выход для избежания проблем, возникающих при преобразовании Фурье, - вместо разложения по синусам и косинусам взять другие системы ортогональных функций, самые известные: вейвлет "Хаара" и вейвлет "Мексиканская шляпа".
Вейвлет-преобразование - это его представление в виде обобщенного ряда или интеграла Фурье по системе базисных функций. Вейвлет-преобразование переводит сигнал из временного представления в частотно-временное. Это способ преобразования функции (или сигнала) в форму, которая или делает некоторые величины исходного сигнала более поддающимися изучению, или позволяет сжать исходный набор данных.
Польза Вейвлет-преобразования заключается в том, что в заданном сигнале мы можем находить функции, похожие на вейвлеты: если при заданном масштабе и сдвига получаем большое значение вейвлета, то в заданном сигнале будет похожий участок.
В отличие от преобразования Фурье вейвлет-преобразование дает двумерную развертку одномерного процесса, при этом частота и время рассматриваются как независимые переменные. В результате появляется возможность анализировать свойства процесса одновременно во временной и частотной областях.