На данном этапе определяется источник получения информации, период, за который они собираются. Проводится проверка ряда требований, которым должны удовлетворять исходные данные.

Для построения регрессионной модели требуются данные, удовлетворяющие следующим требованиям:

    1) и , включенные в модель, должны быть количественно измерены; 2) число наблюдений за и должны быть достаточными. Для проверки этого требования используются эмпирические формулы, устанавливающие соотношение между количеством факторов и числом наблюдений : , в тех случаях, когда информация представляет собой динамические ряды, соотношение 3) наблюдения должны быть независимыми. Наблюдения считаются независимыми, если результаты каждого последующего наблюдения не связаны с предыдущими и не содержат никаких сведений о последующих наблюдениях и не влияет на них. Для оценки независимости наблюдений рассчитывается коэффициент автокорреляции. 4) данные должны представлять собой качественно-однородную совокупность. Однородность информации подразумевает отсутствие (или небольшое количество) нетипичных наблюдений. Для проверки однородности используют:

А) “правило трех сигм”:

Где - вектор значений (ряд наблюдений);

– среднее значение данного ряда наблюдений;

– среднеквадратическое отклонение данного ряда.

Информация считается однородной, если в этот интервал попадает 97% наблюдений.

Б) коэффициент вариации , данные считаются однородными, если ;

В) подчиняется ли исходный ряд нормальному закону распределения.

Если исходная совокупность неоднородна, то на графике появляются волны. Если обнаружены нетипичные наблюдения, то их следует из дальнейшего анализа исключить и пересчитать статистические характеристики по оставшейся совокупности наблюдений;

    5) факторы, включенные в модель, должны быть независимыми друг о друга. Обычно это явление проверяется при анализе явления коллинеарности. Это требование к исходной информации проверяется на следующем (третьем) этапе построения многофакторной модели.