`Функция boot`

Description

Создайте загрузочные реплики R статистики, примененной к данным. Возможна как параметрическая, так и непараметрическая передискретизация. Для непараметрического бутстрепа возможными методами повторной выборки являются обычный бутстрап, сбалансированный бутстрап, антитетическая повторная выборка и перестановка. Для непараметрических задач с несколькими выборками используется стратифицированная повторная выборка: это определяется включением вектора страт в вызов загрузки. Могут быть указаны веса повторной выборки по важности.

Usage

boot(data, statistic, R, sim = "ordinary", stype = c("i", "f", "w"), 
 strata = rep(1,n), L = NULL, m = 0, weights = NULL, 
 ran.gen = function(d, p) d, mle = NULL, simple = FALSE, ...,
 parallel = c("no", "multicore", "snow"),
 ncpus = getOption("boot.ncpus", 1L), cl = NULL)

Arguments

`data`	Данные в виде вектора, матрицы или кадра данных. Если это матрица или кадр данных, то каждая строка рассматривается как одно многомерное наблюдение.
`statistic`	Функция, которая при применении к данным возвращает вектор, содержащий интересующую статистику. При `sim = "parametric"` первым аргументом `statistic` должны быть данные. Для каждой реплики будет передаваться смоделированный набор данных, возвращаемый `ran.gen` . Во всех остальных случаях `statistic` должен принимать как минимум два аргумента. Первым передаваемым аргументом всегда будут исходные данные. Второй будет вектором индексов, частот или весов, которые определяют бутстреп-выборку. Кроме того, если требуются прогнозы, то требуется третий аргумент, который будет вектором случайных индексов, используемых для генерации прогнозов начальной загрузки. Любые дополнительные аргументы могут быть переданы `statistic` через аргумент `...` .
`R`	Количество повторов начальной загрузки. Обычно это будет одно положительное целое число. Для повторной выборки по важности некоторые повторные выборки могут использовать один набор весов, а другие — другой набор весов. В этом случае `R` будет вектором целых чисел, где каждый компонент дает количество повторных выборок из каждой строки весов.
`sim`	Строка символов, указывающая тип требуемого моделирования. Возможные значения: `"ordinary"` (по умолчанию), `"parametric"` , `"balanced"` , `"permutation"` или `"antithetic"` . Повторная выборка по важности определяется путем включения весов важности; тип повторной выборки важности по-прежнему должен быть указан, но в данном случае это может быть только `"ordinary"` или `"balanced"` .
`stype`	Строка символов, указывающая, что представляет собой второй аргумент `statistic` . Возможные значения типа: `"i"` (индексы — по умолчанию), `"f"` (частоты) или `"w"` (веса). Не используется для `sim = "parametric"` .
`strata`	Целочисленный вектор или коэффициент, определяющий слои для задач с несколькими выборками. Это можно указать для любого моделирования, но игнорируется, если `sim = "parametric"` . Если `strata` поставляется для непараметрической начальной загрузки, моделирование выполняется в пределах указанных слоев.
`L`	Вектор значений влияния, оцененных при наблюдениях. Это используется только тогда, когда `sim` равен `"antithetic"` . Если они не указаны, они вычисляются посредством вызова `empinf` . При этом будет использоваться бесконечно малый складной нож при условии, что `stype` равен `"w"` , в противном случае используется обычный складной нож.
`m`	Количество прогнозов, которые должны быть сделаны при каждой репликации начальной загрузки. Это наиболее полезно для (обобщенных) линейных моделей. Это можно использовать только в том случае, если `sim` равен `"ordinary"` . `m` обычно представляет собой одно целое число, но при наличии слоев это может быть вектор с длиной, равной количеству слоев, определяющий, сколько ошибок для прогнозирования должно происходить из каждого слоя. Фактические прогнозы должны быть возвращены как заключительная часть выходных данных `statistic` , который также должен принимать аргумент, задающий вектор индексов ошибок, которые будут использоваться для прогнозов.
`weights`	Вектор или матрица весов важности. Если вектор, то он должен иметь столько элементов, сколько имеется наблюдений в `data` . Если требуется моделирование с использованием более чем одного набора весов, `weights` должен представлять собой матрицу, в которой каждая строка матрицы представляет собой один набор весов важности. Если `weights` — матрица, то `R` должен быть вектором длины `nrow(weights)` . Этот параметр игнорируется, если `sim` не `"ordinary"` или `"balanced"` .
`ran.gen`	Эта функция используется только в `sim = "parametric"` , когда она описывает, как должны генерироваться случайные значения. Это должна быть функция двух аргументов. Первым аргументом должны быть данные наблюдений, а вторым аргументом должна быть любая другая необходимая информация (например, оценки параметров). Вторым аргументом может быть список, позволяющий передавать любое количество элементов в `ran.gen` . Возвращаемое значение должно представлять собой набор смоделированных данных той же формы, что и наблюдаемые данные, которые будут переданы в `statistic` для получения начальной реплики. Важно, чтобы возвращаемое значение имело ту же форму и тип, что и исходный набор данных. Если `ran.gen` не указан, по умолчанию используется функция, которая возвращает исходный `data` , и в этом случае все моделирование должно быть включено как часть `statistic` . Использование `sim = "parametric"` с подходящим `ran.gen` позволяет пользователю реализовать любые типы непараметрической повторной выборки, которые не поддерживаются напрямую.
`mle`	Второй аргумент, который необходимо передать `ran.gen` . Обычно это оценки максимального правдоподобия параметров. Для повышения эффективности `mle` часто представляет собой список, содержащий все объекты, необходимые `ran.gen` , которые можно рассчитать только с использованием исходного набора данных.
`simple`	логично, разрешено только `TRUE` для `sim = "ordinary", stype = "i", n = 0` (в противном случае игнорируется с предупреждением). По умолчанию создается индексный массив `n` по `R` : он может быть большим, а в случае `simple = TRUE` этого можно избежать путем выборки отдельно для каждой репликации, что медленнее, но использует меньше памяти.
`...`	Другие именованные аргументы для `statistic` , которые передаются без изменений при каждом вызове. Любые такие аргументы `statistic` должны следовать за аргументами, которые `statistic` должен иметь для моделирования. Остерегайтесь частичного совпадения с аргументами `boot` , перечисленных выше, а также того, что аргументы с именами `X` и `FUN` вызывают конфликты в некоторых версиях загрузки (но не в этой).
`parallel`	Тип параллельной операции, которая будет использоваться (если есть). Если он отсутствует, значение по умолчанию берется из опции `"boot.parallel"` (а если она не установлена, то из `"no"` ).
`ncpus`	целое число: количество процессов, которые будут использоваться в параллельной работе: обычно это число выбирают в зависимости от количества доступных процессоров.
`cl`	Дополнительный параллельный или снежный кластер для использования с `parallel = "snow"` . Если он не указан, кластер на локальном компьютере создается на время вызова `boot` .

Details

Статистика, подлежащая начальной загрузке, может быть настолько простой или сложной, насколько это необходимо, при условии, что ее аргументы соответствуют набору данных и (для непараметрической начальной загрузки) вектору индексов, частот или весов. statistic рассматривается функцией boot как черный ящик и не проверяется на соответствие этим условиям.

Сбалансированный бутстрап первого порядка описан в работе Дэвисона, Хинкли и Шехтмана (1986). Противоположный бутстрап описан Холлом (1989) и является экспериментальным, особенно при использовании со слоями. Другими типами непараметрического моделирования являются обычный бутстрап (возможно, с неравными вероятностями) и перестановка, которая возвращает случайные перестановки случаев. Все эти методы работают независимо внутри слоев, если указан этот аргумент.

Для параметрической начальной загрузки пользователю необходимо указать, как будет проводиться повторная выборка. Лучший способ добиться этого — указать функцию ran.gen , которая будет возвращать набор смоделированных данных из набора наблюдаемых данных и набора оценок параметров, указанных в mle .

Value

Возвращаемое значение — это объект класса "boot" , содержащий следующие компоненты:

`t0`	Наблюдаемое значение `statistic` применимо к `data` .
`t`	Матрица со строками `sum(R)` , каждая из которых является начальной репликой результата вызова `statistic` .
`R`	Значение `R` , переданное в `boot` .
`data`	`data` перешёл на `boot` .
`seed`	Значение `.Random.seed` на момент начала работы `boot` .
`statistic`	Функция `statistic` , переданная в `boot` .
`sim`	Используемый тип моделирования.
`stype`	Тип статистики, переданный в `boot` .
`call`	Исходный вызов `boot` .
`strata`	Используемые слои. Это вектор, переданный в `boot` , если он был предоставлен, или вектор из единиц, если слоев не было. Он не возвращается, если `sim` равен `"parametric"` .
`weights`	Веса выборки важности, переданные в `boot` , или веса эмпирической функции распределения, если веса выборки важности не были указаны. Он опускается, если `sim` не является одним из `"ordinary"` или `"balanced"` .
`pred.i`	Если требуются прогнозы ( `m > 0` ), это матрица индексов, по которым прогнозы рассчитывались при их передаче в статистику. Опускается, если `m` — это `0` или `sim` — это не `"ordinary"` .
`L`	Значения влияния, используемые, когда `sim` равен `"antithetic"` . Если такие значения не были указаны и `stype` не `"w"` , тогда `L` возвращается как последовательные целые числа, соответствующие предположению, что данные упорядочены по значениям влияния. Этот компонент опускается, если `sim` не `"antithetic"` .
`ran.gen`	Функция генератора случайных чисел, используемая, если `sim` равна `"parametric"` . Этот компонент опускается для любого другого значения `sim` .
`mle`	Оценки параметров передаются в `boot` , когда `sim` равен `"parametric"` . Он опущен для всех остальных значений `sim` .

Для этого класса существуют методы c , plot и print .

Parallel operation

При использовании parallel = "multicore" (недоступно в Windows) каждый рабочий процесс наследует среду текущего сеанса, включая рабочую область, загруженные пространства имен и прикрепленные пакеты (но не начальное число случайных чисел: см. ниже).

При использовании parallel = "snow" требуется дополнительная работа: рабочие процессы — это вновь созданные процессы R , а statistic необходимо организовать настройку необходимой ему среды: часто хороший способ сделать это — использовать лексическую область видимости с момента отправки statistic . рабочему процессу также передается его окружающая среда. (Например, см. пример jack.after.boot , где вспомогательные функции вложены в функцию statistic .) parallel = "snow" в первую очередь предназначен для использования на многоядерных компьютерах Windows, где parallel = "multicore" недоступен.

Для большинства методов boot повторная выборка выполняется в главном процессе, но не для simple = TRUE и sim = "parametric" . В таких случаях (или когда сам statistic использует случайные числа) требуется большая осторожность, если результаты должны быть воспроизводимыми. Повторная выборка выполняется в рабочих процессах с помощью censboot(sim = "wierd") и большинства схем в tsboot (исключением являются sim == "fixed" и sim == "geom" с ran.gen по умолчанию).

Если генерация случайных чисел выполняется в рабочих процессах, поведение по умолчанию заключается в том, что каждый рабочий выбирает отдельное начальное число, невоспроизводимо. Однако если parallel = "multicore" или parallel = "snow" используют кластер по умолчанию, используется второй подход, если выбран RNGkind("L'Ecuyer-CMRG") . В этом подходе каждый рабочий получает другую подпоследовательность потока RNG на основе начального числа во время создания рабочего, поэтому результаты будут воспроизводимы, если ncpus не изменится, а для parallel = "multicore" , если вызывается parallel::mc.reset.stream() : см. примеры для mclapply .

Обратите внимание, что загрузка параллельного пространства имен может изменить случайное начальное число, поэтому для максимальной воспроизводимости это следует сделать до вызова этой функции.

References

Существует множество ссылок, объясняющих бутстрап и его варианты. Среди них:

Бут Дж.Г., Холл П. и Вуд АТА (1993) Повторная выборка со сбалансированной важностью для начальной загрузки. Анналы статистики, 21, 286–298.

Дэвисон, А.С. и Хинкли, Д.В. (1997) Методы начальной загрузки и их применение. Издательство Кембриджского университета.

Дэвисон А.С., Хинкли Д.В. и Шехтман Э. (1986) Эффективное моделирование начальной загрузки. Биометрика, 73, 555–566.

Эфрон Б. и Тибширани Р. (1993) Введение в бутстрап. Чепмен и Холл.

Глисон, младший (1988)Алгоритмы для сбалансированного бутстрап-моделирования. Американский статистик, 42, 263–266.

Холл, П. (1989) Антитетическая повторная выборка для бутстрапа. Биометрика, 73, 713–724.

Хинкли, Д.В. (1988) Методы начальной загрузки (с обсуждением). Журнал Королевского статистического общества, B, 50, 312–337, 355–370.

Хинкли Д.В. и Ши С. (1989) Выборка по важности и вложенная начальная загрузка. Биометрика, 76, 435–446.

Джонс М.В. (1988)Выборка по важности для доверительных интервалов начальной загрузки. Журнал Американской статистической ассоциации, 83, 709–714.

Норин, Э.В. (1989) Интенсивные компьютерные методы проверки гипотез. Джон Уайли и сыновья.

Суббота, 04.04.2026, 13:02	Приветствуем вас Гость \| RSS
Решение задач в среде R
Главная \| Функция boot \| Регистрация \| Вход