Фетальное ультразвуковое исследование остается одним из основных инструментов пренатальной диагностики, однако интерпретация снимков во многом зависит от опыта специалиста. Даже при стандартных измерениях между врачами возможны заметные расхождения: около ±4,9% при оценке окружности головы, ±8,8% – окружности живота и ±11,1% – длины бедренной кости. Авторы отмечают, что существующие универсальные модели компьютерного зрения плохо адаптированы к особенностям пренатального УЗИ, поскольку не учитывают сложную анатомию плода и испытывают дефицит специализированных обучающих данных.
Для обучения FetalCLIP исследователи использовали более 210 тысяч пар «изображение – текст». Основу составили почти 208 тысяч ультразвуковых изображений, полученных при рутинных обследованиях 6,5 тысячи беременных пациенток в Corniche Hospital, а также более 2 тысяч изображений с описанием из специализированного атласа по эхокардиографии плода. Поскольку клинические снимки не сопровождались текстовыми заключениями, авторы с помощью GPT-4o автоматически сформировали описание на основе срока беременности, клинических меток и параметров изображения. Итоговая база стала крупнейшим мультимодальным датасетом такого типа для разработки моделей анализа фетального УЗИ.
В ходе испытаний модель продемонстрировала высокую универсальность. При классификации стандартных ультразвуковых срезов без дополнительного обучения она достигла среднего F1-показателя 87,1%, превзойдя специализированную систему SonoNet на 17,2 процентного пункта, а также существующие медицинские версии CLIP. При определении гестационного возраста по изображениям головного мозга доля корректных прогнозов составила 83,5%, тогда как аналогичные модели показали значительно более низкий результат.
Еще одним направлением оценки стало выявление врожденных пороков сердца по видеозаписям ультразвукового исследования. FetalCLIP обеспечила значение AUROC 78,7%, что на 6,92 процентного пункта выше по сравнению с предыдущими моделями. При сегментации анатомических структур плода система достигла среднего коэффициента Dice 84,22%, демонстрируя более точное выделение органов и тканей даже при ограниченном объеме размеченных данных. Авторы также показали, что модель эффективно работает как универсальный экстрактор признаков, позволяющий создавать новые ИИ-решения для анализа фетального УЗИ с минимальным объемом дополнительного обучения.
Исследователи отмечают, что пока модель обучалась преимущественно на данных второго триместра беременности и не предназначена для самостоятельной клинической диагностики. Тем не менее публикация открывает возможности для создания специализированных систем поддержки принятия врачебных решений в пренатальной медицине, особенно в условиях нехватки опытных специалистов. Для дальнейшего развития проекта разработчики уже опубликовали исходный код и предобученную модель в открытом доступе, рассчитывая ускорить внедрение ИИ в ультразвуковую диагностику беременности.
Разработка продолжает тенденцию создания специализированных ИИ-решений для ультразвуковой диагностики. Так, ранее исследователи из Шанхайского университета Цзяотун представили систему на базе мультимодальных больших языковых моделей, которая автоматизирует проведение сверхразрешающего УЗИ – от настройки параметров сканирования по голосовой команде до анализа изображений и формирования структурированного медицинского заключения примерно за 4 минуты.


