
Исходные положения исследования
Биометрическая идентификация основывается на уникальных физиологических характеристиках, присущих каждому человеку. Классические методы — такие как сканирование отпечатков пальцев, лица или ладоней — широко применяются для подтверждения личности. Однако из-за доступности этих признаков визуальному наблюдению они подвержены рискам фальсификации. В отличие от них, внутренние биометрические параметры — например, структура вен — более устойчивы к внешнему вмешательству, поскольку скрыты под кожным покровом и не могут быть получены без специализированного оборудования.В условиях роста потребности в надежной верификации личности, особенно в офлайн-сценариях (например, в сфере финансовых транзакций), биометрия приобретает ключевое значение как альтернатива паролям и другим традиционным способам аутентификации. Методы, основанные на биологических признаках, обеспечивают высокий уровень защиты за счёт своей уникальности и трудности репликации. Среди них аутентификация по рисунку вен ладони демонстрирует высокий уровень достоверности благодаря оптическим характеристикам кожи этой области: здесь меньшее содержание меланина и меланоцитов, что улучшает прозрачность тканей для оптического сканирования.
Современные оптические методы визуализации, такие как оптическая когерентная томография (OCT — *optical coherence tomography*) и фотоакустическая томография (PAT — *photoacoustic tomography*), позволяют проводить трёхмерное сканирование тканей. OCT применяется для получения поперечных срезов кончиков пальцев с деталями, включая структуру эпидермиса и расположение потовых желез. В то же время PAT фокусируется на визуализации венозных структур и обеспечивает трёхмерные данные, используемые в биометрии. Оба метода демонстрируют высокую эффективность, что подтверждает перспективность применения внутренних характеристик организма в задачах идентификации.
Гиперспектральная визуализация представляет собой особый вид оптического сканирования, при котором регистрируются изображения в широком диапазоне смежных длин волн. Полученный результат можно представить в виде трёхмерного массива (гиперкуба), где два измерения соответствуют пространственным координатам (x, y), а третье — длине волны (λ). Разные длины волн по-разному проникают в кожу, позволяя выделить специфические особенности на различных её уровнях. Особенно полезны в этом контексте видимый и ближний инфракрасный диапазоны, поскольку они позволяют выявить венозный рисунок, обладающий индивидуальной вариативностью.
Дополнительно к информации, полученной с использованием OCT и PAT, гиперспектральная визуализация позволяет анализировать данные о глубине тканей, что делает её мощным инструментом в биометрической аутентификации. Тем не менее, высокая размерность гиперспектральных данных существенно увеличивает вычислительные затраты. Обработка изображений требует значительных ресурсов: больше памяти, процессорной мощности и времени на выполнение таких операций, как фильтрация, выделение признаков и последующее распознавание. Уменьшение площади изображения и фокусировка на локальных участках (например, участке ладони) позволяют сократить объём данных без потери информативности.
Поперечное изображение гиперспектрального куба сохраняет полный спектральный профиль вдоль линии сечения и при этом значительно уменьшает размеры итогового изображения. Это делает возможным снижение затрат на обработку при сохранении диагностической ценности. Такой подход позволяет извлекать текстурные и спектральные особенности, отличающиеся от человека к человеку, с высокой степенью точности.
Ключевым этапом в формировании таких изображений является выделение области интереса (ROI — *region of interest*), поскольку от правильного выбора участка напрямую зависит качество распознавания и сопоставления. В последние годы активное развитие искусственного интеллекта и технологий компьютерного зрения способствовало появлению методов автоматического определения положения ладони и точек сканирования. На этой основе были реализованы алгоритмы на базе нейросетей, обеспечивающие точное и стабильное выделение ROI, что повысило точность всего процесса.
В рассматриваемом исследовании предложенный метод был протестирован на собственной экспериментальной базе данных, содержащей гиперспектральные изображения ладоней. Целью работы было доказать, что даже локальное поперечное изображение, сформированное с использованием гиперспектральных данных, сохраняет необходимую спектральную информацию для надёжной идентификации. Дополнительно была подтверждена эффективность алгоритма выделения области интереса на базе искусственного интеллекта, обеспечивающего высокую точность и воспроизводимость.
Экспериментальная установка и используемые технологии

Гиперспектральные изображения ладони были получены через стекло с использованием низкоугольной съёмки с гиперспектральной камеры. Объектив камеры, размещённый на расстоянии около 500 мм от сканирующей секции, был установлен на высоте примерно 450 мм над полом и наклонён под углом ~40° к горизонтальной поверхности. Освещение осуществлялось галогенной лампой мощностью 500 Вт, расположенной под стеклом и направленной на ладонь испытуемого с противоположной стороны. Управление камерой и сбор данных выполнялись с помощью программного обеспечения, предоставленного производителем. Спектральное отражение фиксировалось гиперспектральной камерой, а полученные гиперспектральные кубические данные (размером 640×480 пикселей и 121 спектральная полоса) сохранялись на жёсткий диск персонального компьютера. Скорость сканирования составляла 20 строк/с, время экспозиции — 0,05 с (50 мс). Общее время сканирования составило около 24 с. Боковое разрешение (вдоль сенсора) составляло 0,36 мм/пиксель, а осевое (вдоль направления сканирования) — 0,42 мм/пиксель.
Исходное гиперспектральное изображение было откалибровано по белому и тёмному уровням с использованием следующего уравнения:

В данной формуле:
- Iref — относительная отражательная способность гиперспектрального изображения, нормализованная от 0 (нулевое отражение) до 1 (100% отражения);
- Iraw — исходное изображение;
- Iwhite — изображение белого эталона;
- Idark — изображение тёмного эталона.

Изображение №2
Для обеспечения единообразия извлекаемой области ладони при каждом измерении использовались ориентиры, полученные с помощью библиотеки MediaPipe Hands (версия 0.10.1) — инструмента компьютерного зрения с открытым исходным кодом от Google. Разработка велась в среде Jupyter Notebook (версия 6.5.4) на языке Python (версия 3.11.5).
Для повышения точности распознавания гиперспектральные данные были преобразованы в псевдо-RGB изображение, сгенерированное с помощью LabVIEW. Затем к полученному RGB-изображению была применена предобученная модель MediaPipe Hands, которая автоматически определила 20 ориентиров ладони. На их основе через ориентир №0 и среднюю точку между ориентирами №9 и №13 была проведена линия ROI (область интереса) с использованием ImageJ.
Средняя длина линии ROI составила 76,19 мм. До её построения к изображению был применён гауссов фильтр с σ = 2 (как по пространственному, так и по спектральному направлениям) для подавления шума. Предварительные тесты показали, что большие значения σ могут вызывать числовое переполнение и искажение изображения, тогда как σ = 2 обеспечивал оптимальный баланс между снижением шума и сохранением ключевых особенностей изображения.

Изображение №3
Схема выше иллюстрирует процедуру извлечения признаков. После определения ROI гиперспектральное изображение было повторно нарезано вдоль линии ROI с помощью функции Reslice в ImageJ. Это дало двумерное пространственно-спектральное изображение. Полученное изображение масштабировалось до размера 100×100 пикселей с помощью билинейной интерполяции (плагин изменения размера в ImageJ). После этого изображение было преобразовано в 8-битное оттенковое (градации серого) и сохранено в формате JPEG.
Для извлечения признаков использовался метод локальных бинарных шаблонов (LBP — Local Binary Pattern). Масштабированное изображение делилось на 25 неперекрывающихся квадратных участков (размером 20×20 пикселей), из которых извлекались гистограммы признаков. Все гистограммы объединялись в единый вектор признаков.
Обработка выполнялась с использованием IMAQ Extract LBP Feature Vector VI30 из LabVIEW. Каждая гистограмма включала 9 интервалов (бинов), что в итоге формировало вектор признаков размером 225 (5×5×9).
Для анализа признаков, извлечённых из биометрических данных, применялись методы кластеризации и снижения размерности, включая алгоритм K-средних и три подхода: анализ главных компонент (PCA — principal component analysis), стохастическое вложение соседей с t-распределением (t-SNE — t-distributed stochastic neighbor embedding) и равномерное приближение и проекция многообразий (UMAP — uniform manifold approximation and projection). Все методы реализованы с использованием Python, преимущественно на базе библиотеки scikit-learn версии 1.3.
Алгоритмы снижения размерности были настроены с параметрами
n_components = 2
и random_state = 0
, что
обеспечило единообразие в анализе и визуализации. Применение PCA с двумя
компонентами дало объяснённые доли дисперсии [0.4215, 0.10992], что в сумме
составило 53.1% общей дисперсии. Несмотря на то что использование восьми
компонент (n_components = 8) позволяло охватить свыше 80% дисперсии, третья
и последующие компоненты демонстрировали низкий вклад. Кроме того, никакая
комбинация компонент, кроме первой и второй, не улучшала результаты
кластеризации. Поэтому предпочтение было отдано PC1 и PC2.
Аналогичным образом, t-SNE и UMAP были выполнены с теми же параметрами, что позволило обеспечить согласованное представление данных в двумерном пространстве и упростить интерпретацию результатов. Все три метода (PCA, t-SNE и UMAP) показали совместимость с результатами кластеризации по методу K-средних при числе кластеров k = 10. Таким образом, во всех случаях был принят подход с двухмерным снижением размерности, переводя исходное 225-мерное пространство признаков в двумерное, сохраняя при этом существенные характеристики исходных данных.
Сравнение векторов биометрических признаков после снижения размерности проводилось с использованием евклидовой метрики. Ожидалось, что внутрисубъектные векторы будут ближе друг к другу (меньшее расстояние), в то время как межсубъектные расстояния окажутся выше. Для оценки статистической значимости различий между этими группами применялся непарный t-критерий Уэлча, анализ проводился в среде Kaleidagraph 5.0.
Для определения оптимального порогового значения была рассчитана частота ложного принятия (FAR — false acceptance rate) и частота ложного отклонения (FRR — false rejection rate). FAR определялась как отношение количества ошибочно принятых попыток к общему числу неверных соответствий. В свою очередь, FRR рассчитывалась как доля ошибочно отклонённых совпадений среди 9000 межклассовых сравнений. Пороговая оценка проводилась пошагово по значениям евклидова расстояния с использованием внутреннего программного обеспечения, реализованного на платформе LabVIEW.
Дополнительно, эффективность распознавания оценивалась с помощью показателя равной частоты ошибок (EER — equal error rate), при котором значения FAR и FRR равны. Для анализа точности идентификации также использовались кривые рабочих характеристик приёмника (ROC — receiver operating characteristics), на которых отображалась частота истинного принятия (TAR — true acceptance rate), рассчитываемая как 1 − FRR, в зависимости от FAR. Количественный анализ эффективности выполнялся с использованием площади под кривой (AUC — area under the curve), вычисляемой с помощью scikit-learn.
В исследовании участвовали 10 добровольцев — здоровые взрослые в возрасте от 24 до 47 лет (7 мужчин и 3 женщины). Для каждого участника было получено 10 изображений ладони с использованием специализированной системы визуализации. У одного из испытуемых снимки были получены по пять раз в разные дни, у другого — в разное время в течение одного дня. У остальных участников изображения собирались последовательно с короткими перерывами между измерениями.
Результаты исследования
Изображение №4
На представленных гиперспектральных изображениях ладоней показаны усреднённые визуализации в различных диапазонах длин волн. В коротковолновом диапазоне наблюдался выраженный пятнистый рисунок (4a). По мере увеличения длины волны изображение становилось более однородным, и начинали проявляться структуры, схожие с венозным рисунком (4b – 4d).

Приведённый выше пример иллюстрирует поперечное гиперспектральное изображение, полученное вдоль заданной линии интереса. Такая поперечная проекция формируется из набора спектров в диапазоне длин волн от 400 до 1000 нм с интервалом в 5 нм. Совокупность этих спектров формирует текстурированное изображение, на котором отчётливо проявляются особенности структуры поверхности кожи. В частности, заметны тени, ориентированные перпендикулярно направлению сечения, соответствующие анатомическим элементам ладони — межфаланговым складкам, линиям ладони, отпечаткам и морщинам (5a).


Изображения выше представляют собой обработанные гиперспектральные поперечные срезы: одного и того же испытуемого (изображение №6) и различных испытуемых (изображение №7). Обнаруживается характерная слоистая структура, обусловленная градиентом интенсивности сигнала. В области коротковолнового спектра наблюдается снижение яркости, тогда как в диапазоне средних и длинных волн интенсивность возрастает. Внутри каждого слоя выявляются устойчивые паттерны распределения яркости. Вертикальные теневые артефакты сохраняются и на этих изображениях, указывая на морфологические особенности поверхности кожи.
При сравнении изображений одного субъекта выявляется стабильная пространственная структура, в то время как изображения разных людей демонстрируют более выраженные различия. Аналогичное поведение зафиксировано при анализе векторов признаков: данные, полученные от одного испытуемого, характеризуются высоким уровнем взаимного соответствия, тогда как векторы признаков, относящиеся к разным субъектам, демонстрируют меньшую степень совпадения в гистограммных шаблонах.

На изображении показаны результаты кластеризации признаков, извлечённых из поперечного гиперспектрального изображения с использованием метода локальных бинарных шаблонов (LBP), с применением алгоритмов K-средних и техник снижения размерности: PCA (8a), t-SNE (8b) и UMAP (8c). Для визуализации данные были преобразованы в двумерное пространство, при этом цветовое кодирование отражает классовую принадлежность объектов.
Анализ показывает, что все три метода обеспечивают различимую группировку признаков, при этом наиболее выраженную сегментацию продемонстрировал UMAP. Алгоритм t-SNE также обеспечивает качественную кластеризацию, превосходя по результативности PCA, который, несмотря на это, сохраняет приемлемое качество выделения групп.

Для оценки различимости биометрических данных, полученных с помощью гиперспектральной визуализации, были рассчитаны распределения дискриминантных значений на основе евклидовых расстояний между векторами признаков. Проведён сравнительный анализ внутрисубъектных и межсубъектных расстояний. Верхняя часть изображения демонстрирует гауссово аппроксимированные кривые распределения, имеющие ярко выраженную бимодальную форму.
Внутрисубъектные расстояния характеризуются узким, пиковым распределением, что свидетельствует о высокой степени повторяемости. Напротив, межсубъектные расстояния имеют более широкое распределение, отражающее вариативность между различными субъектами. На нижних графиках визуализированы значения самих расстояний: во всех случаях межсубъектные значения существенно превышают внутрисубъектные, подтверждая эффективность метода дифференциации.

Изображение №10
Для оценки точности биометрической аутентификации были использованы показатели FAR (False Acceptance Rate) и FRR (False Rejection Rate). На приведённых ниже графиках демонстрируются изменения этих метрик в зависимости от значения нормализованного евклидова расстояния в пространствах признаков, полученных с помощью методов уменьшения размерности — PCA, t-SNE и UMAP.

Изображение №11
По оси абсцисс на графиках отложен порог нормализованного евклидова расстояния, варьирующийся от 0 до 1. Чем ближе расстояние между двумя точками к нулю, тем выше вероятность, что они принадлежат одному и тому же субъекту. Напротив, расстояния, приближающиеся к единице, свидетельствуют о большей вероятности принадлежности к разным субъектам. При заданном пороговом значении, расстояния ниже него интерпретируются как совпадения (один субъект), а выше — как различия (разные субъекты). С увеличением порога снижается вероятность ложных отказов (FRR), но возрастает риск ложных допусков (FAR). Обратное происходит при снижении порога. Точка пересечения графиков FAR и FRR соответствует значению EER (Equal Error Rate) — ключевому показателю сбалансированной ошибки. Минимальное значение EER наблюдалось при использовании метода UMAP, за которым следуют t-SNE и PCA.

Изображение №12
Как видно из иллюстрации, дополнительно была построена кривая ROC (Receiver Operating Characteristic). Для оценки эффективности применялась метрика AUC (Area Under the Curve), отражающая общую способность модели различать классы. Согласно результатам, наилучшие показатели AUC продемонстрировал метод UMAP, что подтверждает его преимущество над другими алгоритмами визуализации признакового пространства.
Общая длительность гиперспектральной съёмки составила 24 секунды, однако применение двух источников света позволило сократить это время до 8 секунд. В процессе обработки изображения применялись различные этапы: шумоподавление с использованием 3D-гауссова фильтра заняло 223,8 мс, преобразование гиперспектрального изображения в формат RGB — 4935,8 мс, аннотирование с помощью MediaPipe Hands — 29,9 мс, настройка области интереса (ROI) и извлечение поперечного сечения изображения — 81,2 мс, извлечение признаков методом LBP — 0,6 мс. В итоге суммарное время обработки одного изображения составило приблизительно 5271,3 мс (~5,3 секунды).
Для получения более полного представления об исследовании можно ознакомиться с оригинальной публикацией в журнале *Journal of Biomedical Optics*.
Эпилог
Авторы рассматриваемого исследования разработали систему биометрической идентификации на основе гиперспектральной визуализации, которая позволяет достичь повышенного уровня безопасности при аутентификации личности.
В отличие от обычных RGB-камер, фиксирующих изображение в трёх каналах (красный, зелёный, синий), гиперспектральные камеры способны регистрировать десятки и даже сотни спектральных диапазонов, охватывая видимую и ближнюю инфракрасную области. Это позволяет получать гораздо более детализированную информацию, недоступную для человеческого глаза.
Одним из ключевых факторов, используемых для идентификации, стали сосудистые рисунки на ладони, формируемые за счёт наличия гемоглобина в крови, активно поглощающего свет в определённых диапазонах. Эти рисунки уникальны для каждого человека и, в отличие от отпечатков пальцев или черт лица, не видимы невооружённым глазом, что делает их труднодоступными для подделки.
Исследователи уверены, что такая форма биометрической аутентификации может использоваться не только для доступа в помещения или устройства, но и как средство постоянного мониторинга состояния здоровья. В перспективе они планируют расширить функциональность системы и исследовать её возможности в медицинской диагностике, включая неинвазивный контроль физиологических показателей через ладонь руки.