УДК 616-036.8:31

ВОПРОСЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ МЕДИКО-БИОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ


1Сорокин А. А., 1Курманбакеев Ю. М., 2Кондратьева Е. И., 2Молдонасиров Р. Б.


1Институт Горной Физиологии НАН КР,

2ГОУ ВПО Кыргызско-Российский Славянский университет имени первого
Президента РФ Б.Н. Ельцина


Аннотация:
Основной тенденцией развития современной медицины является переход к

доказательной медицине. Статистические методы анализа медико-биологической информации
является одним из главных инструментов доказательной медицины, что приводит к резкому росту
потребности у аспирантов и соискателей в обучении современным статистическим методам
обработки. Данная статья представляет краткую справку по 14 видео урокам, каждый из которых
наглядно демонстрирует тот или иной статистический метод. Сообщается, что видео уроки
предоставляются всем желающим.

Ключевые слова: Доказательная медицина, медико-биологическая информация,
статистические методы, видео уроки.


ISSUES OF STATISTICAL PROCESSING OF MEDICAL AND BIOLOGICAL

INFORMATION

1Sorokin A. A., 1Kurmanbakeev Y. M., 2Kondratieva E. I., 2Moldonasirov R. B.

1Institute of Mountain Physiology of the National Academy of Sciences of the Kyrgyz
Republic,

2SEI Higher Education Kyrgyz-Russian Slavic University named after the first President of
the Russian Federation B.N. Yeltsin


Abstract:
The main trend in the development of modern medicine is the transition to evidence-based

medicine. Statistical methods for analyzing medical and biological information are one of the main tools of
evidence-based medicine, which leads to a sharp increase in the need for graduate students and applicants to learn
modern statistical processing methods. This article provides a brief summary of 14 video lessons, each one clearly
demonstrating a particular statistical method. It is informed that the video lessons are available to everyone.

Keywords: the evidence-based medicine, medical and biological information, statistical technology, video
lessons.


МЕДИЦИНАЛЫК-БИОЛОГИЯЛЫК МААЛЫМАТТЫ СТАТИСТИКАЛЫК

ИШТЕТҮҮ МАСЕЛЕЛЕРИ

1Сорокин А. А., 1Курманбакеев Ю. М., 2Кондратьева Е. И., 2Молдонасиров Р. Б.

1КР УИАнын Тоо физиологиясы институту,
2МБбМ ЖКБ РФнын биринчи Президенти Б. Н. Ельцин атындагы Кыргыз-Россия

Славян университети

Аннотация: Заманбап медицинанын өнүгүшүнүн негизги тенденциясы-далилдүү медицинага
өтүү. Медициналык жана биологиялык маалыматтарды талдоо статистикалык ыкмалары
заманбап статистикалык иштетүү ыкмаларын окутуу үчүн аспиранттар жана аспиранттар үчүн
суроо-талаптын кескин өсүшүнө алып келет далилдүү дары негизги инструменттеринин бири болуп
саналат. Бул макалада 14 видео сабак боюнча кыскача маалымат берилет, алардын ар бири тигил же
бул статистикалык ыкманы даана көрсөтүп турат. Маалыматка ылайык, видео сабактар бардык
каалоочуларга берилет.

Негизги сөздөр: Далилдүү медицина, медициналык-биологиялык маалымат, статистикалык
методдор, видео сабактар.


Введение
Одной из основных тенденций развития современной медицины является переход к

доказательной медицине. Термин «доказательная медицина» (ДМ) это достаточно вольный
перевод c английского «evidence base medicine». На наш взгляд прямой перевод как
«медицина, основанная на доказательствах» более точно отражает суть вопроса. Однако
термин ДМ уже устоялся в русскоязычной литературе и мы будем использовать его в
дальнейшем.

Одним из важнейших требований идеологии ДМ, является требование правильной
статистической обработки полученных в исследовании данных. Однако именно в этом
вопросе наблюдается катастрофическое отставание современных аспирантов и соискателей от
мировых стандартов. Приведем две ссылки.

Так, Боярский А.Я. в 1955 году писал: «Так или иначе, но бесспорным фактом являются
недостаточная вооруженность медиков статистическими знаниями, и недостаточно высокий
научный уровень статистической методики в большинстве их экспериментальных работ…»
[1]

С другой стороны, Власов В.В. в 2001 году: «В нашей стране обучение студентов
статистическим методам в биологии и медицине было практически прекращено в 30-х годах,
что явилось частью процесса изгнания генетики с ее математическим аппаратом из советской
науки…» «Отсутствие подготовки врачей и недостаток специалистов по биостатистике
являются основными причинами использования упрощенных и ошибочных методов в
научных исследованиях…» [2]

Сопоставление этих двух цитат позволяет констатировать, что за более чем 50 лет в
этом вопросе ничего не изменилось.
Приведем также цитату из «библии доказательной медицины» монографии Т. Гринхальх .
«Основы доказательной медицины» [3]: «…В этом веке, когда медицина все больше
полагается на математику, ни один клиницист не может позволить себе оставить
статистические аспекты работы полностью «экспертам». Если, подобно мне, вы не считаете
себя вычислителем, помните, что вам не надо уметь создавать машину, чтобы водить ее. Что
вы должны знать о статистических тестах (критериях), так это то, какой тест лучше всего
использовать для типичных проблем. Вам нужно уметь описывать словами, что делает тест и
в каких обстоятельствах он становится ненадежным или неподходящим…»
Наблюдаемое в последние годы в России ужесточение требований к статистической обработке
в статьях и диссертациях в полной мере проявляется и в нашей республике. Все чаще
приходится сталкиваться с просьбами аспирантов и соискателей помочь в статистической
обработке собранного ими экспериментального материала.

Эти же проблемы, пожалуй, в самой жесткой форме, изложены в Ереванской декларации,
которая была принята на международной конференции “Доказательная медицина в Армении:
миф или реальность”, состоявшейся 18-20 октября 2012 года в г. Ереване [4]. Приведем
несколько пунктов из рекомендательной части этой декларации:

1. Ввести предмет “клиническая эпидемиология” в учебные программы до- и
последипломного образования, а также непрерывного профессионального
образования врачей и организаторов здравоохранения.

2. Ввести преподавание клинической эпидемиологии и биостатистики в программы
подготовки аспирантов и докторантов по медицине. Считать первоочередным при
этом “образование образователей” – обучение руководителей диссертационных
работ.

3. Ввести сертификацию специалистов, занимающихся преподаванием клинической
эпидемиологии и биостатистики;

4. Медицинским университетам и научно-исследовательским институтам обеспечить
статистическую поддержку проводимых научных исследований путѐм создания в
своей структуре лабораторий биостатистики.

Учитывая сложившуюся ситуацию со статистической обработкой медико-
биологической информации, руководством НАН КР в 2011 году на базе Института
Физиологии и Экспериментальной Патологии (в настоящее время Институт Горной
Физиологии) создан Центр инновационных методов обучения и трансферта знаний, одной из
задач которого являлась задача создания простых в обучении видео уроков, позволяющих
медицинским работникам в значительной степени самостоятельно подготовить себя к более
правильному использованию различных статистических методов. К настоящему времени
создано 14 видео уроков, на которые получено авторское свидетельство [5]. Целью данной
статьи является попытка ознакомить медицинскую общественность с тем, что такой ресурс
существует и дать ему краткую характеристику.
Остановимся в краткой форме на описании видео уроков, которые входят в этот ресурс.
Урок 1 посвящен вопросу создания исходного файла в пакете прикладных программ SPSS.
Совершено понятно, что пока данные, собранные в результате исследования, не попадут в
компьютер, ни о какой обработке не может быть и речи. Поэтому овладение этим уроком
является обязательным. В процессе изучения этого урока, пользователь знакомится с такими
понятиями как тип переменной, описание переменных, представление числовых и не
числовых данных.

Урок 2 посвящен вопросу расчета описательных статистик. Как известно, описательные
статистики являются обязательным элементом каждой статьи, поскольку дают читателю
представление о том, какие значения получал автор в процессе измерения той или иной
переменной. Далее, в данном уроке приводятся обучающие материалы по такому важному
вопросу как определение подчиняется ли изучаемая переменная нормальному закону. Дело в
том, что согласно современным представлениям, если переменная подчиняется нормальному
закону, то описательными статистиками являются среднее и стандартное отклонение. В случае
же отличия изучаемой переменной от нормального закона адекватными описательными
статистиками являются квартили. Надо отметить, что в отечественных публикациях
медицинской тематики данному вопросу практически не уделяется внимания, что является
существенной ошибкой. Следующим вопросом, который рассматривается в данном видео
уроке, это вопрос какие описательные статистики лучше представлять в статье для
переменной, которая подчиняется нормальному распределению. По этому вопросу
публикации отечественных авторов существенно отличаются от общепринятых мировых
стандартов. Большинство отечественных авторов в качестве описательных статистик приводят
среднее плюс-минус стандартная ошибка (знаменитое М большое и m малое), тогда как в
большинстве статей в рейтинговых журналах с высоким импакт-фактором (Lancet, The New
England Journal of Medicine, JAMA, BMJ) в качестве описательных статистик приводят среднее
плюс-минус стандартное отклонение. Почему последнее представление лучше? Если мы
приводим среднее со стандартной ошибкой, то даем читателю представление о том, насколько
точно измерено среднее. Если приводятся значения среднего и стандартного отклонения, то
читатель получает информации о

вероятности попадания измерения в тот или иной интервал. Безусловно второй вариант
представления описательных статистик более информативен.

Урок 3 посвящен чрезвычайно важному вопросу сравнения средних. Практически в
любой работе так или иначе проводится сравнение средних для получение ответа о наличии
или отсутствии той или иной реакции от проведенного воздействия. Очень существенной
ошибкой является использование для этих целей только теста Стьюдента для несвязанных
выборок, как это часто можно встретить в отечественных публикациях. В современном
понимании для этих целей в мировой практике чаще всего используется четыре теста. Это два
теста Стьюдента для связанных и несвязанных выборок, подчиняющихся нормальному
закону, тест Вилкоксона, для связанных переменных не подчиняющихся нормальному закону,
а также тест Манн – Уитни для не связанных переменных не подчиняющихся нормальному
закону. Для правильного выбора нужного теста в данном уроке приведена схема,
объясняющая выбор теста в каждом конкретном случае. Далее, в видео уроке подробно
показывается и объясняется как работать с этими тестами и как интерпретировать полученные
результаты.

Урок 4. В данном уроке рассматривается задача поиска ответа на вопрос о взаимосвязи
двух непрерывных переменных. Безусловно в медицине громадное количество таких
переменных (температура тела, артериальное давление, концентрация различных веществ в
крови и т.д.). Подобные переменные получили в пакете прикладных программ SPSS название
переменные типа scale (шкала). В уроке показывается, что решение данной задачи возможно
только для связанных выборок. Связанными называются выборки, когда измерения разных
переменных проводятся на одном и том же пациенте или когда измерения одной переменных
проводится на одном и том же пациенте в разные моменты времени (измерения до-после).
Следующим важным моментом, который часто игнорируется в отечественных публикациях,
является выбор коэффициента связи для конкретного случая. Дело в том, что если переменные
подчиняются нормальному распределению, должен выбираться коэффициент корреляции
Пирсона, если же переменные не подчиняются нормальному распределению, то должен
выбираться или коэффициент Спирмена или Кендалла. Далее, в видео уроке рассказывается и
показывается как ответить на вопрос есть связь или нет, если связь есть, то прямая она или
обратная, а также рассматривается вопрос о силе связи. В уроке приводится напоминание, что
с помощью компьютера исследователь может получить ответ только на вопрос есть связь или
нет. Ответ на вопрос о том, что отчего зависит с помощью расчетов получить нельзя. Этот
вопрос исключительно в компетенции исследователя.

Урок 5. Урок нацелен на получение ответа на такой же вопрос, как и предыдущий урок
с той разницей, что рассматриваются качественные переменные (в обозначении SPSS
переменные типа ординал и номинал). Примером таких переменных может быть пол, тяжесть
заболевания, диагноз, группа крови и т.д. В качестве коэффициентов связи в данном уроке
предлагается расчет коэффициента «фи» Пирсона для таблиц кросс-табуляции размером 2х2
и расчет коэффициента V Крамера для таблиц большей размерности. В уроке показывается и
рассказывается полный алгоритм проведения расчетов и интерпретации полученных
результатов.

Урок 6 посвящен ответу на тот же вопрос, что и предыдущие 2 урока, когда ищется
связь между переменной `scale и nominal (или ordinal). Идея решения задачи состоит в том, что
переменная scale преобразуется в переменную ordinal и дальше решение идет по схеме урока
5. Таким образом, основной нагрузкой данного урока является обучение пользователя
навыкам работы с такой функцией SPSS как Transform variable, с помощью которой и
происходит перевод переменной scale в ordinal. Функция Transform variable является одной из
мощных функций SPSS умение пользоваться которой очень полезно для любых других
преобразований анализируемой переменной.

Урок 7. Данный урок имеет своей целью подготовить пользователя к использованию в
решении своих задач метода нелинейной регрессии. Хотя в SPSS можно для этих целей

использовать одиннадцать различных моделей, учитывая основные традиции, сложившиеся
в медицине, в уроке показывается и рассказывается как использовать в своих расчетах только
три из них. Это линейная, квадратическая и кубическая модели. В уроке вводится понятие
коэффициента детерминации, как инструмента оценивания качества той или иной модели.
Показывается и объясняется полная инструкция получения и интерпретации результатов. В
данном уроке, для проведения прогноза с помощью выбранного уравнения, используется
функция compute variable. Обучение работе с этой функцией является важным элементом
подготовки пользователя, поскольку позволяет, например, получать различные перерасчетные
величины.

Урок 8. Если урок 7 посвящен нелинейной регрессии, то урок 8 приводит обучающие
материалы по множественной линейной регрессии. Как и в предыдущем уроке качество
модели оценивается с помощью коэффициента детерминации. Особое внимание обращается
на метод включения переменных в модель. Рекомендуется использовать метод «stepwise»,
который проверяет необходимость включение той или иной переменной в модель. Также,
как и в предыдущем уроке, прогноз осуществляется с помощью функции compute variable,
используя коэффициенты, рассчитанные для каждой переменной. На данном уроке
заканчивается первый обучающий цикл, включающий базовые методы расчета.
Второй цикл включает различные специальные методы, которые могут использоваться в
статье, а могут в данной статье не использоваться.

Урок 9 посвящен такому методу анализа эпидемиологических данных как отношение
шансов. В уроке дается определение шанса и отношения шансов. Метод отношения шансов
является базовым для дизайна «случай – контроль», поэтому в уроке подробно разбирается
этот очень востребованный в настоящее время дизайн. Даются правила построения базовой
кросскорреляционной таблицы, построения файла в SPSS, проведения расчетов и
интерпретация результатов. Особое внимание уделяется понятию и построению
доверительных интервалов. Востребованность метода отношения шансов определяется
большим количеством задач, в которых необходимо выяснить влияет ли наличие или
отсутствие того или иного фактора на частоту возникновения того или иного исхода
(заболевания, смертельного исхода, возникновения рецидива, ремиссии и т.д.). Частота
использования дизайна «случай - контроль» в исследованиях определяется также тем, что
проведение подобных исследований - это быстро и дешево. Важно отметить, что подобные
исследования принимаются всеми журналами мира.

Урок 10. В этом уроке подробно рассматривается такой дизайн как «когортные
исследования» и соответствующий этому дизайну метод отношение рисков. В дизайне
«когортные исследования» решаются те же задачи этиологии, что и в дизайне «случай -
контроль», однако дизайн «когортные исследования» согласно критериям клинической
эпидемиологии является существенно более доказательным, чем «случай-контроль».
Основными недостатками дизайна «когортные исследования» является невозможность
использования этого дизайна для редких заболеваний (приходится набирать очень большие
когорты) и то обстоятельство, что проведение когортных исследований это долго и дорого. В
уроке подробно разбирается и показывается как формируется исследование, как создается
файл, как проводится расчет и как интерпретируются результаты. Целью настоящего урока
является формирование у читателя достаточных ключевых знаний для проведения
собственных исследований в формате дизайна «когортные исследования». Четкого
представления о задачах, которые могут быть решены в данном формате.

Урок 11 рассматривает вопросы, связанные с анализом выживаемости. Анализ статей
из лучших журналов мира показывает чрезвычайно высокую востребованность этого анализа
в сегодняшних медицинских исследованиях. Идея анализа состоит в том, чтобы использовать
время для ответа на вопрос хорошо или плохо. В качестве примера приведем следующее
рассмотрение. Представим, что нам необходимо оценить новый метод лечения терминальных
больных. Очевидно, что новый метод будет лучше старого если будет увеличивать
продолжительность жизни пациентов по сравнению со старым методом. Хотя

данный анализ получил название анализа выживаемости, событием не обязательно должна
быть смерть. Метод может применяться при использовании в качестве события достижение
любого клинически значимого результата. В уроке в качестве вычислительной процедуры
используется процедура Каплана – Майера, позволяющая использовать цензурированные
данные. В качестве примера, на котором показывается как использовать данную процедуру в
SPSS, рассматривается следующая задача: получить оценки времени жизни после
установления диагноза у больных с острой миелоидной лейкемией (выборка 33 человека).
Проверить гипотезу, что выживаемость для этой нозологии существенно зависит от наличия
или отсутствия в крови миелоидных бластов. При решении данной задачи, для ответа на
вопрос о наличии или отсутствии различий могут использоваться три теста: Log rank, Breslow
и Tarone – Ware. Решение задачи также сопровождается построением двух графиков: графика
выживаемости и графика возрастания риска смерти с течением времени.

Урок 12. Бинарная логистическая регрессия. Данный анализ практически не
используется в отечественных публикациях, тогда как очень интенсивно используется в
зарубежных. Анализ довольно сложен и не однозначен, что определяет необходимость
определенного опыта в его использовании. Однако, даже в простейшем варианте он может
быть очень и очень полезен. В уроке 8 рассматривалась множественная линейная регрессия.
Логистическая регрессия, это тоже в некотором смысле преобразованная специальным
образом множественная регрессия. Преобразование проводится таким образом, чтобы можно
было провести анализ взаимосвязи между несколькими независимыми переменными и
зависимой переменной. В отличие от множественной линейной регрессии, представленной в
уроке 8, в логистической регрессии независимые переменные могут быть любого типа (scale,
nominal, ordinal). Зависимая переменная при использовании бинарной логистической
регрессии должна быть дихотомической, то есть принимать только два значения
(здоров/болен, умер/жив, злокачественная опухоль/доброкачественная опухоль и т.д.). Обычно
значения дихотомической переменной носят характер вероятности. Поэтому в задачу
бинарной логистической регрессии не входит оценка значения дихотомической переменной.
Задачей бинарной логистической регрессии является оценка вероятности реализации того или
иного значения дихотомической переменной. Например, какова вероятность, что пациент
болен, какова вероятность, что опухоль доброкачественная и т.д. В качестве примера
применения бинарной логистической регрессии, в уроке используется задача определения
вероятности наличия карциномы мочевого пузыря по результатам двух тестов. Необходимо
определить, в частности, какова вероятность, что человек болен, если один тест показывает,
что пациент болен, тогда как другой показывает, что пациент здоров. Таким образом, если мы
решили пользоваться бинарной логистической регрессией, то, следовательно, речь идет о
некотором событии, которое может произойти или не произойти. Задача регрессии определить
вероятность того или иного исхода в зависимости от значений независимых переменных.

Урок 13 и 14 посвящены проблеме, которая вообще не учитывается в отечественных
публикациях, тогда как в мировой практике ей придается большое значение. Обозначим
проблему. В отечественных публикациях часто можно встретить ситуацию, когда проводится
попарное сравнение нескольких связанных или несвязанных групп. В частности, можно
увидеть, например такие записи: Р1-2 < 0.05, Р1-3 < 0.05, Р2-3 < 0.05. Ясно, что речь идет о
попарном сравнении трех групп. При таком подходе существенно возрастает вероятность
найти статистически значимые различия там, где их в действительности нет (ошибка 1-го
рода). Суть общественного договора между врачами-исследователями состоит в том, что врач
не имеет права делать заключения с ошибкой 1-го рода больше 0.05 (закон 0.05). Если мы
проводим три сравнения и вероятность отсутствия ошибки первого рода в каждом отдельном
сравнении 0.95, то вероятность отсутствия ошибки 1-го рода в любом из сравнений по законам
теории вероятностей составит 0.95х0.95х0.95 = 0.857. Следовательно, вероятность сделать
хотя бы одну ошибку 1-го типа составит 1 – 0.857 = 0,142, т.е. почти в три раза больше 0.05!
Кроме, того если сравнений больше, чем три, то вероятность сделать

ошибку первого рода еще более возрастает. Для решения этой проблемы создано несколько
подходов, самый простой из них называется поправкой Бонферрони. Суть поправки состоит
в том, что при множественных сравнениях пороговое значение значимости различий
уменьшается в число раз, равное числу сравнений. Так, при числе сравнений равное трем,
существование статистически значимых различий должно признаваться, если значимость
меньше 0.05/3 = 0,017. Поправка Бонферрони считается достаточно консервативной и
применяется обычно при числе сравнений не более восьми. В уроке 13 рассматриваются
множественные сравнения для двух случаев несвязанных выборок. Первый случай, когда
выборки подчиняются нормальному распределению. В этом случае применяется
однофакторный дисперсионный анализ (ANOVA). В случае несоответствия выборок
нормальному распределению применяется тест Краскела-Уоллиса, после чего проводятся
попарные сравнения с использованием поправки Бонферрони. В уроке 14 та же проблема
рассматривается для связанных выборок. В этом случае самый простой вариант использовать
тест Стьюдента для связанных выборок с поправкой Бонферони.
Мы закончили краткое описание 14 видео уроков, которые созданы к настоящему времени.
Надеемся, что читатель легко поймет, какой из видео уроков может ему помочь в
исследованиях.

В заключении следует отметить, что любые видео уроки могут быть переданы
желающим на бесплатной основе в центре менеджмента и трансферта знаний Института
горной физиологии НАН КР.

Литература:
1. Боярский А.Я. Статистические методы в экспериментальных медицинских

исследованиях. Под ред. проф. П.А.Кувшинникова. М.: Медгиз, 1955. - 250с.
2. Власов В.В. Эпидемиология в современной России.

https://www.mediasphera.ru/journals/mjmp/2001/2/r2-01-7.htm
3. Гринхальх Т. «Основы доказательной медицины» Москва, Издательская группа

«Геотар-медиа», 2006, 240 с
4. http://www.biometrica.tomsk.ru/erevan_4.html
5. Сорокин А.А. Виртуальное учебное пособие по статистической обработке медико-

биологической информации для медиков. Кыргызпатент. Свидетельство № 2624. 2015
6. Свидетельство spsstools.ru/Syntax/SurvivalAnalysis/SurvivalAnalysisExample.txt (.sps).