Компьютерное зрение - это пограничная область или разница между техническим заданием и медицинской апробацией
Метки: CAD, Последние публикации, дайджест, компьютерное зрение, новости, радиомика, хай-тек
По данным публикации в Корейском журнале Радиологии(Korean Journal of Radiology) за март 2019 - Design Characteristics of Studies Reporting the Performance of Artificial Intelligence Algorithms for Diagnostic Analysis of Medical Images: Results from Recently Published Papers / Конструктивные характеристики исследований, отражающих эффективность алгоритмов искусственного интеллекта при диагностическом анализе медицинских изображений: результаты недавно опубликованных работ - внешняя ссылка
Целью данной работы было оценить характеристики исследований, в которых оценивали работоспособность алгоритмов искусственного интеллекта (ИИ) при диагностическом анализе медицинских изображений.
В базах данных PubMed MEDLINE и Embase был проведен поиск оригинальных исследовательских статей, опубликованных в период с 1 января 2018 года по 17 августа 2018 года, в которых исследовалась эффективность алгоритмов искусственного интеллекта, которые анализируют медицинские изображения для предоставления диагностических решений.
Приемлемые статьи были оценены по следующим критериям:
1) использовало ли исследование внешнюю, а не внутреннюю валидацию/проверку, и в случае внешней проверки, собирались ли для этого данные,
2) использовало ли исследование диагностическую когортную схему вместо схемы "случай-контроль",
3) было ли исследование многоцентровым(*т.е. участвовали ли в научной работе несколько медицинских учреждений?),
4) было ли исследование проспективным(*т.е. производилась ли диагностика с помощью ИИ до постановки окончательного диагноза?).
Это фундаментальные методологические особенности, рекомендуемые для клинической проверки эффективности ИИ в реальной практике. Исследования, которые удовлетворяли вышеуказанным критериям, были определены. Авторы разбили статьи на 2 группы: статьи в медицинских и немедицинских журналах, для сравнения.
Итого из 2748 статей, первоначально собранных после устранения совпадений между PubMed MEDLINE и Embase, 516 статей были окончательно признаны приемлемыми, из них только 6% (31 исследование) провели внешнюю проверку. Ни в одном из 31 исследования не были приняты все три конструктивных элемента: дизайн диагностической когорты, включение нескольких учреждений и проспективный сбор данных для внешней проверки. Не было обнаружено существенных различий между медицинскими и немедицинскими журналами.
Использование искусственного интеллекта (ИИ) в медицине в последнее время привлекает большое внимание благодаря достижениям в технологиях глубокого обучения. Примечательно, что существует заметный интерес к использованию ИИ при диагностическом анализе различных типов медицинских изображений, в основном с помощью сверточных нейронных сетей, типа технологии глубокого обучения, называемой «компьютерное зрение»(*Это не верно, термин "компьютерной зрение" не относится только к "глубокому обучению".). Как и в случае с любыми другими медицинскими устройствами или технологиями, важна тщательная клиническая проверка алгоритмов искусственного интеллекта до их применения в клинической практике посредством проведения адекватно спланированных исследований для обеспечения пользы и безопасности пациента при одновременном избежании непреднамеренного вреда. Обратите внимание, что под термином «валидация»(*проверка) в этом исследовании подразумевается клиническое подтверждение для использования в медицине, а не в смысле технического жаргона при настройке алгоритма машинного обучения. Клиническая валидация технологий искусственного интеллекта может проводиться по разным критериям эффективности: диагностическая эффективность, влияние на исход пациента и социальная эффективность, которая учитывает экономическую выгоду и экономическую эффективность. Надлежащая оценка реальной клинической эффективности многомерных алгоритмов ИИ, которые анализируют медицинские изображения с использованием глубокого обучения, требует надлежащим образом разработанной внешней проверки. Для внешней валидации/проверки рекомендуется использовать наборы данных соответствующего размера, которые собираются либо от вновь набранных пациентов(*проспективность), либо в учреждениях, отличных от тех, которые предоставили данные для обучения(*многоцентровость), таким образом, чтобы адекватно представлять спектр проявлений (т.е. все соответствующие различия в демографии и заболеваемости пациентов) целевых пациентов в реальных клинических условиях, где будет применяться ИИ. Кроме того, использование данных из нескольких внешних учреждений важно для валидации/проверки способности алгоритма обобщать ожидаемую изменчивость в различных больницах. Сложные математически-статистические модели ИИ, такие как алгоритмы глубокого обучения, которые анализируют медицинские изображения, требуют большого количества данных для обучения алгоритма; создание и аннотирование такой величины данных медицинских изображений является особенно ресурсоемким и сложным процессом. Разработчики таких алгоритмов ИИ могут использовать разные доступные данные (например, такие как «случай-контроль» *т.е. клинические наблюдения), несмотр на то, что такие данные могут страдать предвзятостью и, вероятно, плохо отражать реальные клинические условия. Поскольку эффективность алгоритма ИИ сильно зависит от его обучающих данных/выборки, существует реальный риск того, что алгоритмы ИИ могут плохо работать в условиях реальной врачебной практики, и что алгоритм, обученный в одном учреждении, даст неточные результаты при применении его к подобным данным в другом учреждении (*Например потому, что в другом учреждении будет другая школа врачей, подготовленных иначе или придерживающихся других рекомендаций, других врачебных ассоциаций и т.д. Т.е. потому что алгоритм обучили "учителя", которые в другом учреждении не катируются. Иными словами может потребоваться индивидуальный подход - обучение ИИ для конкретного лечебного учреждения или сети учреждений).
Несмотря на волнение вокруг использования ИИ в медицине, отсутствие соответствующей клинической проверки алгоритмов ИИ, по-видимому, является актуальной проблемой - явление, называемое «цифровая исключительность». Например, компьютерные ученые обычно оценивают производительность алгоритмов ИИ на «тестовых» наборах данных; однако, это обычно случайные подвыборки исходного набора данных, и, следовательно, адекватная внешняя проверка клинической эффективности невозможна.
Насколько нам известно, конкретные данные, показывающие точную степень этой предполагаемой проблемы, довольно скудны. Это исследование было направлено на оценку конструктивных характеристик недавно опубликованных исследований, в которых сообщалось об использовании алгоритмов ИИ при анализе медицинских изображений и того, насколько данные в этих публикациях соответствовали требованиям проверки клинической эффективности медицинской продукции в реальной медицинской практике. Особенности дизайна исследования, рассматриваемые в этом исследовании, имеют решающее значение для валидации реальных клинических показателей ИИ, но будут чрезмерными для технического обоснования. Поскольку не каждое научное исследование об использовании ИИ для медицинской диагностики предназначено для проверки реальной клинической эффективности, целью этого исследования не было прямо оценить методологическую уместность опубликованных исследований.
(*Тут хочется в очередной раз процитировать книгу Д.Форсайт и Ж. Понс. Компьютерное зрение. Современный подход. 2004г. - "Компьютерное зрение - это пограничная область знаний. Здесь часто нет авторитетов, на которые можно сослаться. Многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике.")
В базах данных PubMed MEDLINE и Embase был проведен тщательный поиск с целью выявления оригинальных исследовательских статей, в которых исследовалась эффективность алгоритмов искусственного интеллекта при анализе медицинских изображений для предоставления диагностических решений (таких как диагностика или обнаружение определенных заболеваний или предоставление информации для классификации пациентов с конкретным заболеванием в подгруппы в соответствии с их состоянием, степенью тяжести, стадией заболевания, ответом на лечение, прогнозом и рисками).
После устранения совпадений между двумя базами данных статьи были проверены на соответствие двумя независимыми рецензентам. Статьи с любой степенью двусмысленности или с разногласиями во мнениях между двумя рецензентами были переоценены на консенсусной встрече, для которой был приглашен третий рецензент. Отчеты о случаях, обзорные статьи, редакционные статьи, письма, комментарии и тезисы / материалы конференции были исключены. Поиск был ограничен работами на английском языке. В данное исследования были включены работы, изучающие алгоритмы ИИ, анализирующие как медицинские изображения, так и другие типы клинических данных. Алгоритмы искусственного интеллекта, которые выполняли не связанные с принятием диагностических решений задачи, например, сегментацию изображения, количественные измерения и реконструкции изображений, не рассматривались(*А потому что это не "stand-alone"(независимые) алгоритмы, т.е. не принимающие окончательного решения.).
Авторы данного метаанализа немного великодушно определяли валидацию как «внешнюю» и включали в это понятие использование данных проверки из учреждений, отличных от того, из которого были получены данные обучения, а также случаи, когда данные обучения и проверки были собраны из одного и того же учреждения, но в разные периоды времени, хотя последнее не считается внешней проверкой в строгом смысле этого термина. Для исследований, в которых наборы данных для обучения и проверки были собраны в одном и том же учреждении, данные проверки считались внешними только в том случае, если клинические параметры и критерии приемлемости пациентов для набора проверочных данных были указаны отдельно от параметров набора данных для обучения. Это должно было гарантировать, что проверочная выборка была не просто подвыборкой с разделением по времени исходной выборки, поскольку это терминологически соответствует внутренней проверке. Под диагностической когортой понималось, что в исследовании сначала были определены клинические условия и критерии соответствия, а уже затем последовательно или случайным образом набирались пациенты для прохождения определенной диагностической процедуры, такой как применение алгоритма ИИ. В отличие от этого, диагностическая схема «случай-контроль» включала бы выборку пациентов, положительных или отрицательных на предмет наличия у них конкретного заболевания. Диагностические схемы «случай-контроль» склонны к смещению спектра, что может привести к завышенной оценке диагностической эффективности(*т.е. набор данных такого типа можно назвать "комнатными" или "аквариумными" условиями).
Результаты этого метаанализа показали, что последние из опубликованных исследований, в которых сообщалось об эффективности алгоритмов ИИ при диагностическом анализе медицинских изображений, не соответствовали тому, что называется надежной проверкой клинической эффективности, что подтверждает опасения, которые недавно высказывались в некоторых ведущих журналах. В нашем исследовании рассматривались далеко не все методологические показатели для оценки качества клинических испытаний, а лишь основные. Следовательно, степень проблемы клинической валидации алгоритмов ИИ, вероятно, может быть еще более значительной.
Однако следует отметить, что эти результаты не обязательно означают, что опубликованные исследования были разработаны неадекватно во всех отношениях. Четыре критерия, использованные в этом исследовании - внешняя проверка и данные для внешней проверки, полученные с использованием диагностического когортного исследования, из нескольких учреждений и проспективным способом - являются фундаментальными требованиями для исследований, которые предназначены для оценки клинической эффективности в реальном времени в мировой практике. И их можно признать чрезмерными для исследований, которые просто исследуют техническую осуществимость ИИ(*т.е. чисто научные работы, а не апробация продукта). Как читатели, так и исследователи должны проводить различие между техническими/ технико-экономическими обоснованиями и исследованиями для подтверждения клинической эффективности ИИ и должны избегать неправильного рассмотрения результатов исследований, которые не соответствуют упомянутым выше критериям доказательства клинической эффективности.
Недавно были опубликованы новые методические руководства по этому вопросу. Мы подозреваем, что большинство исследований, которые мы проанализировали в этом исследовании, могли быть задуманы или выполнены до того, как эти методологические руководства стали доступны. Следовательно, конструктивные особенности исследований, которые предназначены для оценки клинической эффективности алгоритмов искусственного интеллекта в медицине, могут улучшиться в будущем.
Еще одна проблема, которая не была непосредственно рассмотрена в данном исследовании, но заслуживает упоминания, это прозрачность в отношении априорных планов анализа и публикация всех результатов в исследованиях, подтверждающих клиническую эффективность алгоритмов ИИ. Поскольку эффективность алгоритма ИИ может варьироваться в разных учреждениях, некоторые исследователи или спонсоры могут быть склонны выборочно сообщать только о благоприятных результатах, что приведет к занижению сведений о неблагоприятных результатах. Проспективная регистрация исследований, включая априорные планы анализа, аналогичные регистрации клинических испытаний (например, на внешняя ссылка ), помогут повысить прозрачность этих исследований. Принятие этой политики академическими журналами поможет повысить прозрачность отчетности об исследованиях, которые подтверждают клиническую эффективность алгоритмов искусственного интеллекта.
В заключение следует отметить, что почти все исследования, опубликованные в исследуемый период и оценивающие эффективность алгоритмов искусственного интеллекта при диагностическом анализе медицинских изображений, были разработаны по модели проверки технико-экономических обоснований и не соответствовали рекомендациям по надежной проверке реальной клинической эффективности.
*комментарии редактора