Классификатор на основе 3Д векторного анализа(продолжение) и поисковый движок
Метки: Computer aided detection, Computer vision, Компьютерное зрение, Машинное зрение, Радиомика, манускрипт, программные решения для поиска изображений по шаблону, хай-тек
Эта работа является продолжением всех предыдущих моих работ по этой теме - Классификатор изображений...
В ней я продолжаю анализировать возможности классификации сложных изображений, какими в частности являются изображения УЗИ.
В некотором роде все объекты в этом мире похожи.
Мы можем спросить разных людей о похожести одних и тех же объектов и услышать разные мнения.
Когда же речь заходит о компьютере, то задавать ему подобный вопрос вообще не имеет смысла, т.к. человек использует некую часто иррациональную экстраполяцию данных. А компьютер нет.
Это объясняется сложностью работы человеческого мозга, которую грубо можно разделить на сознание и подсознание, причем если усложнять, то сознаний может быть несколько, это довольно явно можно наблюдать у детей до 4-5 летнего возраста, когда они могут легко переключаться с одного настроения на другое за долю секунды - секунду назад плакал, а спустя секунду уже улыбается. Взрослому здоровому психически человеку это сделать проблематично, так как у него есть доминирующее сознание, остальные подавлены.
Подсознание это вообще чрезвычайно загадочная и неизученная часть нашего разума.
Его можно сравнить с контролирующим органом власти, который постоянно с вами, следит за вами и иногда через те или иные ваши эмоции выдает вам решения, причем без аргументов, апелляций, источников этих данных, доводов за и против - т.е. императивно.
У компьютера этого нет, я не говорю про жалкие попытки симуляции этих процессов называемых искусственным интеллектом или искусственными нейронными сетями.
Да, компьютеру тоже можно задать некие параметры для экстраполяции, но вот иррациональностью компьютер не страдает. Поэтому задаваемые параметры степени похожести всегда будут известны компьютеру.
Поэтому не надо спрашивать компьютер похожи ли те или иные объекты, спросите на какой % те или иные объекты можно считать похожими!
Для данной публикации были отобраны изображения УЗИ случаев верифицированных образований молочной железы с сайта внешняя ссылка
Из двух разделов: доброкачественных образований: внешняя ссылка
и злокачественных: внешняя ссылка
Файлы были переименованы, в том числе в название вошли их GET переменные из URL на сайте - т.е. все названия файлов доброкачественных изображений начинались на "295_" , а злокачественных на "304_" .
Далее эти изображения были обрезаны, для исключения лишних объектов(фона), таких как черный фон по бокам и даже просто обширные участки нормальной ткани молочной железы вокруг образований, насколько форма этих образований это позволяла сделать.
Из выборки были исключены несколько изображений, т.к. они содержали дополнительную графическую информацию, такую как стрелки и маркеры измерения.
В данной работе к уже анонсированному в предыдущей публикации типу классификации -
1 - по проценту совпавших векторов на сравниваемых изображениях;
Я добавил еще один тип:
2 - по проценту найденной наибольшей области интереса(ROI) к изображению-мишени(или другими словами изображению-шаблону).
Для определения диапазона совпадения изображений из данной выборки был выбран шаг в 5%.
По первому типу классификации в данной выборке можно найти группы схожих изображений только в пределах 15%.
По второму типу классификации - до 70%
Понятно, что чем выше пороговый процент, тем меньше группы.
А при уменьшении порога, группы становятся больше, но менее селективными, т.е. в них попадают и доброкачественные и злокачественные образования. Т.е. верхние значения порогов можно считать более специфичными, а нижние более чувствительными.
Самое интересное, что в раскладке второго типа классификатора при базе в 24 изображения и при пороге в 70% я получил туже тенденцию "дерева" , что в предыдущей версии классификатора, т.е. в 1 типе с гемангиомами - 3 группы, одна из 3 изображений, и 2 по 2 изображения. Все три группы имеют 1 общее изображение - "parent" - которое связывает оставшиеся два либо в 2 группы по 2, либо в одну по 3. Причем все три изображения визуально похожи и все относятся к одной категории "304" , т.е. злокачественные, см. пример по ссылке ниже:
Безусловно при снижении порога, как это уже было описано, снижается специфичность, а чувствительность повышается, что означает, что в одной группе могут находится и добро- и злокачественные изображения - т.к. на всех из них есть фон нормальной ткани молочной железы, что их всех и объединяет.
Далее на основе уже имеющихся решений было не сложно реализовать то, о чем я говорил еще в самой первой публикации.
Т.е. о прототипе поискового движка, вроде Google.Картинки, но для поиска медицинских изображений по образцу изображения.
Представим себе такую ситуацию, опытным врачам это конечно вряд ли понадобится, что начинающий врач УЗИ находит какое-то образование, например в молочной железе, и не знает как его правильно описать, сомневается.
Конечно можно просто зайти на замечательный сайт ultrasoundcases.info, где есть каталог со случаями и все их просмотреть, если у вас на это есть время? Думаю, что это наиболее правильное решение!
Но допустим у вас нет этого времени и хочется получить быстрый ответ на вечный вопрос - что это?
И тут на помощь молодому врачу может прийти как раз именно такой поисковый движок, см. пример по ссылке ниже:
Все очень просто как видите! Просто загрузили изображение и получили похожие с процентом(вероятностью) соответствия вашей находки с уже имеющимися изображениями в базе данных!
Более того, такую базу данных легко обновлять - просто добавьте картинок с нужными кодовыми обозначениями в названии файла в каталог базы данных на жестком диске!
Очень просто, но не совсем! Т.к., как я уже писал в предыдущих статьях, для полноценной работы такого алгоритма потребуется очень мощный компьютер с большим объемом ОЗУ(терабайты) и большой емкостью жесткого диска(петабайты или более), и более того, очень быстрого жесткого диска, такого как M.2 или быстрее. В остальном в техническом плане всё просто!
Остается еще одна, самая важная составляющая, не имеющая прямого отношения к работе алгоритма, но к его результатам имеющая самое прямое отношение - база данных!
Т.е. алгоритм не сможет работать без базы данных, а именно набора верифицированных морфологически изображений!
Выражаю признательность доктору Taco Geertsma за разрешение использовать изображения ultrasoundcases.info
English version - внешняя ссылка
Напоследок, краткое обзорное видео по проекту
Видео с ВК | ||||
|