Матриця камери

У комп'ютерному зорі матриця камери або матриця проєкції (камери) є матрицею $3\times 4$ , яка описує відображення стенопа від 3D-точок в світі, до 2D-точок зображення. Нехай $\mathbf {x}$ — представлення тривимірної точки в однорідних координатах (чотиривимірний вектор), і нехай $\mathbf {y}$ буде представленням зображення цієї точки в стенопі (3-вимірний вектор). Тоді має місце наступне співвідношення

\mathbf {y} \sim \mathbf {C} \,\mathbf {x}

де $\mathbf {C}$ — це матриця камери, а $\,\sim$ знак, що означає, що ліва і права частини рівності рівні ненульовому скалярному множенню.

Так як матриця камери $\mathbf {C}$ бере участь у відображенні між елементами двох проєктивних просторів, її теж можна розглядати як проєктивний елемент. Це означає, що у неї є тільки 11 ступенів свободи, так як будь-яке множення на ненульовий скаляр призводить до еквівалентної матриці камери.

Походження

Відображення координат тривимірної точки P на координати двовимірного зображення проєкції точки на площину зображення, відповідно до моделі стенопа, дається формулою

{\begin{pmatrix}y_{1}\\y_{2}\end{pmatrix}}={\frac {f}{x_{3}}}{\begin{pmatrix}x_{1}\\x_{2}\end{pmatrix}}

де $(x_{1},x_{2},x_{3})$ є тривимірними координатами P щодо централізованої системи координат камери, $(y_{1},y_{2})$ — отримані координати зображення, f — фокусна відстань камери, для якої передбачається, що f > 0. Крім того, ми також припускаємо, що x₃ > 0.

Для отримання матриці камери цей вираз переписується в термінах однорідних координат. Замість двовимірного вектора $(y_{1},y_{2})$ розглянемо проєктивний елемент (3D-вектор) $\mathbf {y} =(y_{1},y_{2},1)$ та замість рівності розглядаємо рівність з точністю до масштабування на ненульове число, що позначається $\sim$ . Спочатку ми записуємо координати однорідного зображення у вигляді виразів в звичайних тривимірних координатах.

{\begin{pmatrix}y_{1}\\y_{2}\\1\end{pmatrix}}={\frac {f}{x_{3}}}{\begin{pmatrix}x_{1}\\x_{2}\\{\frac {x_{3}}{f}}\end{pmatrix}}\sim {\begin{pmatrix}x_{1}\\x_{2}\\{\frac {x_{3}}{f}}\end{pmatrix}}

Нарешті, також тривимірні координати виражаються в однорідному представленні $\mathbf {x}$ , і ось як виглядає матриця камери:

{\begin{pmatrix}y_{1}\\y_{2}\\1\end{pmatrix}}\sim {\begin{pmatrix}1&0&0&0\\0&1&0&0\\0&0&{\frac {1}{f}}&0\end{pmatrix}}\,{\begin{pmatrix}x_{1}\\x_{2}\\x_{3}\\1\end{pmatrix}}

чи

\mathbf {y} \sim \mathbf {C} \,\mathbf {x}

де $\mathbf {C}$ матриця камери, яка дається формулою

\mathbf {C} ={\begin{pmatrix}1&0&0&0\\0&1&0&0\\0&0&{\frac {1}{f}}&0\end{pmatrix}}

,

і відповідна матриця камери тепер стає

\mathbf {C} ={\begin{pmatrix}1&0&0&0\\0&1&0&0\\0&0&{\frac {1}{f}}&0\end{pmatrix}}\sim {\begin{pmatrix}f&0&0&0\\0&f&0&0\\0&0&1&0\end{pmatrix}}

Останній крок є наслідком того, що $\mathbf {C}$ сам по собі є проєктивним елементом.

Виведена тут матриця камери може здатися тривіальною в тому сенсі, що вона містить дуже мало ненульових елементів. Це в значній мірі залежить від конкретних систем координат, які були обрані для 3D і 2D точок. На практиці, однак, інші форми матриць камер є загальними, що буде показано нижче.

Положення камери

Матриця камери $\mathbf {C}$ , отримана в попередньому розділі, має нульовий простір, натягнуте на вектор

\mathbf {n} ={\begin{pmatrix}0\\0\\0\\1\end{pmatrix}}

Це також однорідне уявлення тривимірної точки, яка має координати (0,0,0), тобто «центр камери» (так зване вхідне вічко; положення отвору стенопа), що знаходиться в O.

Для будь-якої іншої 3D-точки з $x_{3}=0$ , результат $\mathbf {y} \sim \mathbf {C} \,\mathbf {x}$ коректно визначений і має вигляд $\mathbf {y} =(y_{1}\,y_{2}\,0)^{\top }$ . Це відповідає нескінченно віддаленій точці на площині проєктованого зображення (навіть якщо площина зображення вибрана як евклідова площина, то не існує відповідної точки перетину).

Нормована матриця камери і координати нормованого зображення

Матриця камери, отримана вище, може бути спрощена ще більше, якщо ми припустимо, що f = 1:

\mathbf {C} _{0}={\begin{pmatrix}1&0&0&0\\0&1&0&0\\0&0&1&0\end{pmatrix}}=\left({\begin{array}{c|c}\mathbf {I} &\mathbf {0} \end{array}}\right)

де $\mathbf {I}$ тут позначає одиничну матрицю $3\times 3$ . Зверніть увагу, що $3\times 4$ matrix $\mathbf {C}$ тут розділена на конкатенацію матриці $3\times 3$ і тривимірного вектору. Матриця камери $\mathbf {C} _{0}$ іноді називається канонічної формою.

До сіх пір всі точки в тривимірному світі були представлені в системі координат відцентрованої камери, тобто в системі координат, яка має початок в центрі камери (місце розташування точкового отвору стенопа). На практиці, однак, 3D-точки можуть бути представлені в термінах координат відносно довільної системи координат (X1',X2',X3'). Припускаючи, що координатні осі камери (X1,X2,X3) і осі (X1',X2',X3') мають Евклідів тип (ортогональний і ізотропний), існує єдине Евклідове тривимірне перетворення (поворот і зрушення) між двома системами координат. Іншими словами, камера не обов'язково знаходиться на початку координат і дивиться уздовж осі z.

Дві операції обертання і зсуву тривимірних координат можуть бути представлені у вигляді двох матриць $4\times 4$

\left({\begin{array}{c|c}\mathbf {R} &\mathbf {0} \\\hline \mathbf {0} &1\end{array}}\right)

and

\left({\begin{array}{c|c}\mathbf {I} &\mathbf {t} \\\hline \mathbf {0} &1\end{array}}\right)

де $\mathbf {R}$ є матрицею повороту $3\times 3$ , а $\mathbf {t}$ є тривимірним вектором паралельного перенесення. Коли перша матриця множиться на однорідне уявлення 3D-точки, результатом є однорідне уявлення поверненої точки, а друга матриця виконує замість цього паралельне перенесення. Виконання двох операцій послідовно, тобто спочатку поворот, а потім паралельне перенесення (з вектором паралельного перенесення, заданим у вже поверненій системі координат), дає комбіновану матрицю повороту і паралельного перенесення

\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \\\hline \mathbf {0} &1\end{array}}\right)

Припускаючи, що $\mathbf {R}$ і $\mathbf {t}$ — це точно обертання та перенесення, які пов'язані з двома системами координат (X1,X2,X3) і (X1',X2',X3') вище, це означає, що

\mathbf {x} =\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \\\hline \mathbf {0} &1\end{array}}\right)\mathbf {x} '

де $\mathbf {x} '$ — однорідне уявлення точки P в системі координат (X1',X2',X3').

Припускаючи також, що матриця камери задана $\mathbf {C} _{0}$ , відображення з координат в (X1',X2',X3') до однорідних координатам зображення стає

\mathbf {y} \sim \mathbf {C} _{0}\,\mathbf {x} =\left({\begin{array}{c|c}\mathbf {I} &\mathbf {0} \end{array}}\right)\,\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \\\hline \mathbf {0} &1\end{array}}\right)\mathbf {x} '=\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \end{array}}\right)\,\mathbf {x} '

Отже, матриця камери, яка пов'язує точки в системі координат (X1',X2',X3') з координатами зображення, є

\mathbf {C} _{N}=\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \end{array}}\right)

конкатенація матриці 3D обертання і тривимірного вектора перенесення.

Цей тип матриці камери називають нормованою матрицею камери, вона приймає фокусну відстань = 1 і координати зображення вимірюються в системі координат, де початок координат знаходиться на перетині між віссю X3 і площиною зображення, і має ті ж одиниці як тривимірна система координат. Отримані координати зображення називаються координатами нормованого зображення.

Положення камери

Знову ж, описаний вище нульове простір нормованої матриці камери, описана вище $\mathbf {C} _{N}$ , натягнуто на 4-мірний вектор

\mathbf {n} ={\begin{pmatrix}-\mathbf {R} ^{-1}\,\mathbf {t} \\1\end{pmatrix}}={\begin{pmatrix}{\tilde {\mathbf {n} }}\\1\end{pmatrix}}

Це, знову ж, координати центру камери, тепер відносно системи (X1',X2',X3'). Це можна побачити, застосувавши спочатку поворот, а потім паралельний перенос до тривимірного вектору ${\tilde {\mathbf {n} }}$ і результат є однорідним представленням тривимірних координат (0,0,0).

Це означає, що центр камери (в її однорідному поданні) знаходиться в нульовому просторі матриці камери, за умови, що він представлений у вигляді тривимірних координат відносно тієї ж системи координат, до якої відноситься матриця камери.

Нормовану матрицю камери $\mathbf {C} _{N}$ можна тепер записати у вигляді

\mathbf {C} _{N}=\mathbf {R} \,\left({\begin{array}{c|c}\mathbf {I} &\mathbf {R} ^{-1}\,\mathbf {t} \end{array}}\right)=\mathbf {R} \,\left({\begin{array}{c|c}\mathbf {I} &-{\tilde {\mathbf {n} }}\end{array}}\right)

де ${\tilde {\mathbf {n} }}$ — це тривимірні координати камери відносно системи (X1',X2',X3').

Загальна матриця камери

З огляду на відображення, створене нормованою матрицею камери, отримані координати нормованого зображення можуть бути перетворені за допомогою довільної двовимірної гомографіі. Це включає двовимірний перенос та обертання, а також масштабування (изотропне і анізотропне), але, також, і загальні двовимірні перспективні перетворення. Таке перетворення може бути представлено як матриця $3\times 3$ matrix $\mathbf {H}$ , яка відображає координати нормованого зображення $\mathbf {y}$ до координат перетвореного однорідного зображення $\mathbf {y} '$ :

\mathbf {y} '=\mathbf {H} \,\mathbf {y}

Вставка вищенаведеного виразу для координат нормованого зображення у вигляді тривимірних координат дає

\mathbf {y} '=\mathbf {H} \,\mathbf {C} _{N}\,\mathbf {x} '

Це дає найбільш загальну форму матриці камери

\mathbf {C} =\mathbf {H} \,\mathbf {C} _{N}=\mathbf {H} \,\left({\begin{array}{c|c}\mathbf {R} &\mathbf {t} \end{array}}\right)

Див. також

Посилання

Richard Hartley and Andrew Zisserman (2003). Multiple View Geometry in computer vision. Cambridge University Press. ISBN 0-521-54051-8.