На данном этапе определяется источник получения информации, период, за который они собираются. Проводится проверка ряда требований, которым должны удовлетворять исходные данные.
Для построения регрессионной модели требуются данные, удовлетворяющие следующим требованиям:
- 1)
и
, включенные в модель, должны быть количественно измерены; 2) число наблюдений за
и
должны быть достаточными. Для проверки этого требования используются эмпирические формулы, устанавливающие соотношение между количеством факторов
и числом наблюдений
:
, в тех случаях, когда информация представляет собой динамические ряды, соотношение
3) наблюдения должны быть независимыми. Наблюдения считаются независимыми, если результаты каждого последующего наблюдения не связаны с предыдущими и не содержат никаких сведений о последующих наблюдениях и не влияет на них. Для оценки независимости наблюдений рассчитывается коэффициент автокорреляции. 4) данные должны представлять собой качественно-однородную совокупность. Однородность информации подразумевает отсутствие (или небольшое количество) нетипичных наблюдений. Для проверки однородности используют: А) “правило трех сигм”: 
Где
- вектор значений (ряд наблюдений);
– среднее значение данного ряда наблюдений;
– среднеквадратическое отклонение данного ряда.
Информация считается однородной, если в этот интервал попадает 97% наблюдений.
Б) коэффициент вариации
, данные считаются однородными, если
;
В) подчиняется ли исходный ряд нормальному закону распределения.
Если исходная совокупность неоднородна, то на графике появляются волны. Если обнаружены нетипичные наблюдения, то их следует из дальнейшего анализа исключить и пересчитать статистические характеристики
по оставшейся совокупности наблюдений;
- 5) факторы, включенные в модель, должны быть независимыми друг о друга. Обычно это явление проверяется при анализе явления коллинеарности. Это требование к исходной информации проверяется на следующем (третьем) этапе построения многофакторной модели.