Для формирования базы обезличенных и специальным образом размеченных снимков, на основе которой можно обучать искусственный интеллект, было проанализировано порядка 80 тыс. КТ, сделанных в московских амбулаторных КТ-центрах пациентам с подозрением на вирусную пневмонию. Датасет доступен для специалистов-разработчиков искусственного интеллекта. Компьютерные томограммы конвертированы в признанный среди профессионалов машинного обучения формат NIfTI.
Датасет, собранный экспертами Центра диагностики и телемедицины, уникален, подчеркивают в столичном депздраве. Например, в базе данных Калифорнийского университета в Сан-Диего находится 349 двухмерных КТ-снимков 216 пациентов, в то время как в датасете, собранном в Москве, содержатся трехмерные КТ-исследования. База данных RAIOSS & Livon Saúde, сформированная в Бразилии, пока включает 10 компьютерных томограмм, тогда как у Итальянского радиологического общества она содержит более 70. Набор случаев новой коронавирусной инфекции Североамериканского радиологического общества разрознен и подходит только для ознакомления, а у Британского общества торакальной радиологии он содержит не более сотни исследований.
Помимо количества случаев, московская база данных имеет еще одно отличие от зарубежных. Все КТ-исследования в датасете Центра диагностики и телемедицины размечены согласно классификации, отражающей объем патологических изменений в легочной ткани при Covid-19 по данным компьютерной томографии органов грудной клетки. Классификация, которая легла в основу разметки, была опубликована в методических рекомендациях по лучевой диагностике коронавирусной болезни Covid-19.
Исследования, вошедшие в базу данных Центра диагностики и телемедицины, были собраны в Москве за период с 10 марта по 25 апреля 2020 года при помощи Единого радиологического информационного сервиса (ЕРИС).