はじめに
光の当たり方ひとつで、見えてくる世界は大きく変わります。
フォトメトリックステレオは、そんな光の変化を手がかりに物体の形状を推定する技術です。近年は深層学習の応用により、金属の反射や布の複雑な質感といった難題にも対応できるようになり、研究の裾野はますます広がっています。
しかし本稿では、最新アルゴリズムや照明セットアップの解説には踏み込みません。
むしろ問いかけたいのは、「このアイデアはいつ、どのように誕生したのか」ということです。
1970年代に端を発し、幾度もの理論的発展と計算技術の進歩を経て成熟してきたフォトメトリックステレオ。その歩みを振り返ることで、研究者たちがどんな発想に挑み、どんな課題を乗り越えてきたのかを追体験できるはずです。
フォトグラメトリとフォトメトリックステレオ
写真から形状を復元する技術には、大きく分けて2つのアプローチがあります。前回紹介したフォトグラメトリ(写真測量、Structure-from-Motion など)は視点を変えて多数画像を撮影し、特徴点マッチングで形状再構築を行う技術です1。一方、本稿で扱うフォトメトリックステレオは照明を変えて撮影し、単一視点から法線を得て局所凹凸を精緻に捉える技術です2。
フォトグラメトリはテクスチャが多い物体に対してグローバルな形状精度が高く、テクスチャレスや反射面では困難が生じます3。対してフォトメトリックステレオはテクスチャレス面であっても細かい表面凹凸を再現できる利点があります2,4。ただし、推定結果にスケールや低周波形状の歪みが生じやすく、全体形状の大きな歪み補正が課題となります2,4。これらの互補性を生かし、フォトグラメトリで全体形状とスケールを、フォトメトリックステレオで微細形状を取得する融合手法も提案されています5,6。
💡 一言メモ:2つの技術の違い
簡単に言うと、フォトグラメトリは「カメラを動かして撮影」、フォトメトリックステレオは「光を動かして撮影」する技術です。前者は建物全体のような大きな形状を得るのが得意で、後者は表面の細かい凹凸を捉えるのが得意です。
前史:芸術・地図における陰影表現から形状復元研究へ
芸術・地図製作における陰影法の歴史
歴史的に、絵画や地図製作において陰影表現は立体感を伝える重要な手法として用いられてきました。西洋絵画では「明暗法(キアロスクーロ)」が古くから知られ、ルネサンス期のレオナルド・ダ・ヴィンチは1502~1503年にトスカーナ地方の地図で、光源を左上に固定した斜視図と陰影を組み合わせて地形表現に用いています7。その後17世紀にもスイスのMurerらが陰影を用いた地図を描いた例が知られています7。
18~19世紀の地図製作では等高線登場以前に地形の凹凸を表現するため、傾斜方向に沿った線幅・密度で明暗を表すhachures(シュラッフーレン)や、光源を想定した陰影図などが試みられました。1799年にLehmannは地形の斜度と地図上の明度との関係式を提案し8、19世紀中頃には印刷技術の進歩により陰影図法(Relief Shading)が発展しました。Wiechel(1850年代)は陰影図法を理論的に整理しています9。このように、鏡面や等高線とは異なる陰影による立体表現技法は長い歴史を持っています7。
💡 一言メモ:陰影表現の歴史的意義
陰影図法は「2Dの紙に3Dの凹凸をどう表すか」という工夫の積み重ねでした。今でいう「レンダリングの基礎研究」を、人類は何世紀も前から手探りでやっていたとも言えます。
1950~60年代:計算機視覚の黎明期
20世紀中葉、冷戦時代の宇宙開発競争とコンピュータ技術の発展を背景に、視覚心理学や計算機視覚の分野で陰影を利用した形状推定が研究され始めました。この時代は、月面探査という具体的な社会的要請が技術発展を牽引しました。心理学的には、ハイライトと影が物体の形状・奥行きを示唆する単眼手がかりとされ、「光源は上方から来る」という先験的仮定が人間の形状認識に影響することが指摘されています10。
1960年代には月面写真解析などで陰影情報から形状を求める試みが登場します。van Diggelen (1951) は月面の「地球照」の境界(終端線)付近の照度分布から地形の一方向の傾きを推定し、別位置の光源像と組み合わせれば両方向の傾きを求められると示唆しました11。またRindfleisch (1966) は月面の特殊な反射特性(反射率が入射角余弦に比例)を仮定して画像照度を1次偏微分方程式で表し、当時撮影されたRanger号の月面画像に適用して高さプロファイルを再構築しています12。しかし一般に陰影情報のみでは未知数が多く、形状復元は難しい問題でした。
1960年代後半には、人工知能研究が本格化する時代背景において、MIT人工知能研究所のBerthold Horn がこの問題を数学的に定式化し始めます。この時期のAI研究は、ロボット工学や自動化システムへの応用を見据えていました。Horn(1970, 1975)は陰影からの形状復元を非線形偏微分方程式(画像照度方程式)として定式化し、表面が滑らかであるという仮定のもとで積分的に解く方法を示しました13,14。これらは形状復元問題を理論的に初めて解決した例です。
💡 一言メモ:Hornの画像照度方程式の重要性
Hornの「画像照度方程式」は、現代のシェーディング方程式の祖先のような存在です。数式は難解でも、要は「光の強さと表面の傾きには対応関係がある」と整理したことが革命的でした。
起源:陰影法から照度差ステレオへ(1970年代)
Berthold Hornの反射率マップと画像照度方程式
表面の陰影(シェーディング)から形状を推定する手法(shape from shading)の研究は1970年頃にBerthold Hornらによって進められました13,14。MIT人工知能研究所(MIT AI Lab)に所属していたHornは、画像上の明るさ方程式を導入し、反射率マップ(reflectance map)という概念を用いて単一視点・単一光源から形状を推定しました15,16。
反射率マップは、表面の局所傾斜(p,q)と画像輝度の関係を可視化したものです。Horn (1977) はこの反射率マップを導入し、照明・視点が無限遠にあると仮定すると輝度を表面傾斜の関数 R(p,q) で表せることを示しました15。すなわち、固定光源下において画像の輝度 I(x,y) は R(p,q) = I(x,y) という画像照度方程式に従うとされました15,16。この方程式は、単一画像からは未知が1つ多い欠定方程式であり、解を得るには滑らかさなどの追加仮定が必要であることが知られます14,16。
Hornの貢献は、これら理論を体系化し、計算機で解くための手法(特性曲線法や反復解法など)を生み出した点にあります13,16。またHornは形状復元アルゴリズムを簡単化するツールとして反射率マップが有用であることを強調しており16、この考え方はのちの諸手法の基盤となりました(反射率マップはHill shadingや形状推定手法を統一的に比較する共通基盤ともなりました)。なお、Hornは1975年に画像照度方程式を非線形PDEとして最初に提案し、滑らかな表面仮定のもとで数値解法を示しています14。
💡 一言メモ:Horn理論の意義
Hornの理論は、現実の光学現象を数学的に記述する基盤を作りました。1つの画像だけでは情報が足りない(欠定方程式)という問題を明確にしたことで、後のフォトメトリックステレオ発展の道筋が見えたのです。
フォトメトリックステレオの誕生(1980年)
Robert Woodhamによる決定的な提案
1980年代初頭、パーソナルコンピュータの普及とデジタル画像処理技術の発達により、より実用的なアプローチの必要性が高まっていました。この時代背景において、同一視点から照明方向だけを変えた複数画像を使うフォトメトリックステレオ(照度差ステレオ、光学ステレオ)法が考案されました。1980年にブリティッシュコロンビア大学(University of British Columbia)のRobert Woodhamが「Photometric method for determining surface orientation from multiple images」として照度差ステレオを提案し、特にLambert面(完全拡散面)上の法線推定を行う基本アルゴリズムを示しました17。
Woodhamの照度差ステレオ法では複数照明から得られる情報を活用して形状推定問題の不定性を解消できました。光源方向を変えて複数枚の画像を取得し、反射率マップ方程式を同時に解くことで各画素の表面向きを求める手法です17。例として2光源下では式が2本得られるため未知(p,q)を解けます(3光源で過剰決定することでノイズ耐性も向上します)17。具体的には、2照明で$$I_1(x,y)=R_1(p,q),\quad I_2(x,y)=R_2(p,q)$$として傾斜 p, q を求めるという説明は、2照明で未知数を2つ得る例として適切です17。
Woodhamの照度差ステレオは、単一画像からの形状推定(shape-from-shading)が抱えていた曖昧さを回避し、実用的な形状再構築手法として1980年以降広く採用されています17。
なお、同時期にMITのSilver(1980)なども類似の多照明による法線推定法を検討しており31、関連人物として言及されることもあります。
💡 一言メモ:Woodhamの発想の転換
Woodhamの提案は「光を動かして観察すれば、形が直接わかる」というシンプルな発想でした。フォトグラメトリが"カメラを動かす"のに対して、フォトメトリックステレオは"光を動かす"のです。
池内克史らによる拡張
続いて、1981年には東京大学の池内克史(Katsushi Ikeuchi)らが鏡面反射を持つ物体に対してもこの手法を拡張し、分布照明(複数光源)の下で複数画像を用いて局所的な法線を求める方法を示しました2,18。Ikeuchiらは「photometric stereo(照度差ステレオ)という手法はWoodhamによって最初に定式化された」と述べ、Woodhamの1980年論文を引用しています2。また同論文では、Hornが画像方程式を解析的に解く従来手法(陰影法)と対比し、複数画像を用いた照度差ステレオでは滑らかさ仮定なしに局所的な法線を得られる点を強調しています2,18。
Ikeuchi・Horn (1984) でも「Photometric Stereo」アプローチと呼ばれ、滑らかさ仮定なしに局所的に法線が求まる新手法としてまとめられています18。このように、Hornらの反射率マップ・画像照度方程式の枠組みがあって初めて、Woodhamの照度差ステレオ法では複数照明から得られる情報を活用して形状推定問題の不定性を解消できました。
1990–2000年代:モデル一般化と計算法の改良
1990年代は計算機グラフィックスの商業化とインターネットの普及により、3D技術への産業需要が急速に高まった時代でした。同時に、CPU性能の向上により複雑な計算が現実的になったことで、照度差ステレオの適用範囲拡大が進みました。物体表面の反射モデルをより現実的に扱うため、Ward(1992)モデル19やTorrance-Sparrow模型など様々な双方向反射分布関数(BRDF)が提案されました。これにより鏡面反射や半透明があっても法線推定を行う研究が盛んになりました。
特に重要な理論的進展として、ワイツマン科学研究所(Weizmann Institute)のBasriとハーバード大学(Harvard University)のJacobs(2003)によるランバート反射における線形部分空間の発見が挙げられます23。彼らは、未知照明下でも3次元基底に収まることを示し、非較正照度差ステレオの理論的基礎を築きました。これ以前にも、大阪大学のHayakawa(1989)らが未知照明下でも解が導出できる理論的先例を示していました24。
他方、未知の照明条件下でも形状を求める非較正照度差ステレオの手法も登場し、照明方向を推定しながら法線推定を行うアプローチが研究されました。近年では、従来の反射モデルに依存せず画像中のアウトライヤを頑健に扱うロバスト手法や、サンプル画像と対応関係を取る例示ベース手法も提案されています。
Ikehataら(2018)は、これら非ランバート反射への拡張を以下の4分類にまとめています4:
- (a)ロバストアプローチ
- (b)反射モデルを用いたアプローチ
- (c)例示ベースアプローチ
- (d)学習ベースアプローチ
また、取得した法線場(法線の垂直勾配場)から形状高度(奥行き)を復元するための積分手法や平滑化も研究されました。古くはメリーランド大学(University of Maryland)のFrankot & Chellappa(1988)が正則化積分や統一的アプローチについて議論しており25、プリンストン大学(Princeton University)のNehabら(2005)はレーザスキャナなどから得られた粗い形状に照度差ステレオの法線を組み合わせる混合手法を示し、全体の形状精度を保ちつつ表面の詳細度を向上させています5。
さらに、この時期には物体の色(スペクトル)を利用するマルチスペクトル・フォトメトリックステレオ(Ikeuchiら1999年など)26や、偏光を利用した形状推定、視点の遠近効果を考慮した手法(ShiらのパースペクティブPS など)27、カメラ移動を伴う手法(「motion photometric stereo」)など、様々な拡張手法も提案されました。
💡 一言メモ:理想から現実の材質へ
この時代は「理想的なランバート反射」から「現実の複雑な反射」へと対象が広がった時期です。非較正の研究は「現場で光源を正確に測れない」という現実的な課題への解決策でした。
近年:深層学習時代の照度差ステレオ(2010年代後半~)
2010年代は深層学習革命とGPU演算能力の飛躍的向上、そしてビッグデータの利用可能性が技術進歩を牽引した時代でした。同時期に、VR/AR技術、自動運転、ドローン技術などの新興産業が3D計測技術への需要を急激に押し上げていました。この社会的背景において、2010年代後半からは深層学習(特に畳み込みニューラルネットワーク:CNN)を用いた照度差ステレオが登場しました。従来は仮定された照明や反射モデルに基づく最適化が主流でしたが、香港大学(The University of Hong Kong)のChenら(2018)はCNNにより非ランバート面の照度差ステレオを解くPS-FCNを提案しました20。
PS-FCNは任意数の入射画像を入力とし、固定カメラ位置のもとで高速に法線マップを予測するネットワークで、学習時に画像ごとの照明方向を指定せずとも高い性能を示しました20。同年、ヨーロッパ・コンピュータビジョン会議(ECCV 2018)でワシントン大学(University of Washington)のIkehataらもCNNを利用したPSアルゴリズム(CNN-PS)を発表し、非ランバート表面に対する照度差ステレオ解法を学習手法で達成しています4。
これらに先立ち、Santo et al.(2017)がDPSN(Deep Photometric Stereo Network)を提案し28、その後もSDPS-Net(Chen et al., CVPR 2019)29など、較正済み・非較正を問わず学習ベースの照度差ステレオネットワークが続々と提案され、深層学習が照度差ステレオ研究を一層活性化しました。
Juら(2024)は照度差ステレオにおける深層学習アプローチを体系的にレビューし、「近年、各種の深層学習手法が非ランバート面に強く有効であることが示されている」とまとめています1。
さらに、21世紀以降は照度差ステレオ技術がSLAMやNeRFと組み合わされる試みも増えており、「Active Photometric Stereo」「Neural Reflectance Fields」などのキーワードで研究が盛んです30。これらの話題は本記事の範囲を超えますが、学習ベース・視差ベース・照明変化ベースのハイブリッド手法が今後の発展分野であることは確実です。
💡 一言メモ:深層学習の導入
ネットワークに法線を推定させるアプローチは、「難しい方程式を全部覚えさせてしまえ」という方向転換でした。その結果、ノイズや複雑な材質にも強くなり、実用性が一気に高まりました。
SfM/SLAM/NeRFとの関連と今後の展望
従来手法との比較
従来のSfM(Structure-from-Motion)やSLAMは複数視点から幾何学的な手法で構造を復元する技術であり、これらもフォトグラメトリに近いアプローチです。Juら(2024)は「従来の幾何ベースの手法(SfMなど)は視点変化を利用するのに対し、照度差ステレオは固定視点で照明変化から局所形状を捉える」と述べ、両者の違いを明確にしています1。
実際、フォトグラメトリはテクスチャ有りの物体で正確な外形復元が可能ですが、テクスチャレスや反射面では困難が生じます3。対して照度差ステレオはテクスチャレス面であっても細かい表面凹凸を再現できる利点があります2,4。ただし、照度差ステレオは推定結果にスケールや低周波形状の歪み(平滑形状のずれ)が生じやすく、全体形状の大きな歪み補正が課題となります2,4。
NeRFとの融合可能性
一方、近年話題のNeural Radiance Fields(NeRF)(Mildenhallら 2020)はニューラルネットワークで放射場を学習し、任意視点の画像合成や形状再構築を行う手法で、物理的な照明条件やカメラ位置をニューラル表現で統合的に扱います21。
NeRFは非協力的な(テクスチャレス・反射性の高い)対象に強いですが、協力的テクスチャがある場合は従来のフォトグラメトリが有利という解析結果も報告されており、フォトグラメトリや照度差ステレオと相補的な特性を持ちます22。今後はこれら視差型技術(SfM/SLAM)と照明変化型技術(照度差ステレオ)、さらにはNeRFなどニューラルレンダリングを組み合わせたハイブリッド手法への発展も期待されています。
ハイブリッド手法への発展
例えばNehabら(2005)はレーザスキャナなどから得られた粗い形状に照度差ステレオの法線を組み合わせる手法を示し、全体の形状精度を保ちつつ表面の詳細度を向上させています5。
💡 一言メモ:NeRFとハイブリッド手法の可能性
フォトグラメトリ、フォトメトリックステレオ、NeRFは「形の骨格」「微細な凹凸」「光と質感」を分担する技術です。これらを組み合わせるのが次の大きな流れになっています。
まとめ:技術発展の教訓と今後への示唆
フォトメトリックステレオの歴史を振り返ると、複数の重要な技術発展の教訓が浮かび上がります。まず、社会的要請が技術発展の原動力となることです。1960年代の月面探査、1990年代のCG産業化、2010年代のVR/AR・自動運転技術など、それぞれの時代の社会的ニーズが研究方向を決定してきました。
また、理論と実用性のバランスの重要性も明らかです。Hornの厳密な理論的基盤があったからこそ、Woodhamの実用的なアプローチが成功し、その後の発展につながりました。単なる理論研究でも実用偏重でもなく、両者の橋渡しが技術革新の鍵となることを示しています。
計算技術の進歩と応用範囲の拡大も重要な教訓です。初期の月面解析から、PC時代の汎用化、そして深層学習時代の飛躍的性能向上まで、計算環境の発展が常に新たな可能性を開いてきました。これは今後のAI技術発展においても同様のパターンが期待されることを示唆しています。
今後の展望として、フォトメトリックステレオは単独技術から統合的アプローチへの転換期にあります。フォトグラメトリとの融合による全体・詳細の統合、NeRFとの組み合わせによる光学現象の完全な再現、そして次世代センシング技術との連携により、より包括的な3D理解システムの構築が進むでしょう。
最終的に、この技術の発展史は「光から形を読み取る」という人類の古来からの探求が、現代のデジタル技術によってどのように具現化されてきたかを示しています。今後も、人間の視覚認識の理解を深めながら、産業応用と基礎研究のバランスを保ちつつ発展していくことが期待されます。
参考文献・出典
- Ju et al. (2024). "Deep Learning Methods for Calibrated Photometric Stereo and Beyond", CVPR 2024. https://www.researchgate.net/publication/379782034
- 池内克史 (1981). "Determining Surface Orientations of Specular Surfaces by Using the Photometric Stereo Method", IEEE PAMI-3(6), pp. 661-669. https://www.cvl.iis.u-tokyo.ac.jp/~ki/open/green-card/ikeuchi-papers/5-specular-photometric-stereo.pdf
- MDPI (2022). "Combining Photogrammetry and Photometric Stereo to Achieve Precise and Complete 3D Reconstruction", Sensors, 22(21), 8172. https://www.mdpi.com/1424-8220/22/21/8172
- Ikehata, S. (2018). "CNN-PS: CNN-based Photometric Stereo for General Non-Convex Surfaces", ECCV 2018. https://www.ecva.net/papers/eccv_2018/papers_ECCV/papers/Ikehata_CNNPS_CNNbased_Photometric_ECCV_2018_paper.pdf
- Nehab, D., Rusinkiewicz, S., Davis, J., & Ramamoorthi, R. (2005). "Efficiently Combining Positions and Normals for Precise 3D Geometry", ACM Transactions on Graphics, 24(3), 536-543. https://gfx.cs.princeton.edu/pubs/Nehab_2005_ECP/index.php
- 九州大学 (2022). "Photometric Stereo - Kyushu University Pure Portal Site". https://kyushu-u.elsevierpure.com/en/publications/photometric-stereo
- 地図製作史研究会 (2010). 「地形表現技法の歴史的発展」、測量学会誌、56(3), 145-162.
- Lehmann, J.G. (1799). "Darstellung einer neuen Theorie der Bezeichnung der schiefen Flächen im Grundriss oder der Situationszeichnung der Berge", Leipzig: Schmidt.
- Wiechel, H. (1850年代). "Die Theorie der Böschungsschraffur", ドイツ地図学会誌.
- Kalloniatis, K. & Luu, C. (2007). "The Perception of Depth - Webvision", in Webvision: The Organization of the Retina and Visual System. https://www.ncbi.nlm.nih.gov/books/NBK11512/
- van Diggelen, J. (1951). "A Photometric Investigation of the Slopes and Heights of the Ranges of Hills in the Maria of the Moon", Bulletin of the Astronomical Institutes of the Netherlands, 11(423), 283-289.
- Rindfleisch, T. (1966). "Photometric Method for Lunar Topography", Photogrammetric Engineering, 32(2), 262-277.
- Horn, B.K.P. (1970). "Shape from Shading: A Method for Obtaining the Shape of a Smooth Opaque Object from One View", MIT AI Lab Technical Report 79. https://people.csail.mit.edu/bkph/AIM/AITR-232-OPT.pdf
- Horn, B.K.P. (1975). "Obtaining Shape from Shading Information", in The Psychology of Computer Vision (P.H. Winston, ed.), McGraw-Hill, pp. 115-155.
- Horn, B.K.P. (1977). "Understanding Image Intensities", Artificial Intelligence, 8(2), 201-231.
- Horn, B.K.P. (1981). "Hill Shading and the Reflectance Map", Proceedings of the IEEE, 69(1), 14-47. https://people.csail.mit.edu/bkph/papers/Hill-Shading.pdf
- Woodham, R.J. (1980). "Photometric Method for Determining Surface Orientation from Multiple Images", Optical Engineering, 19(1), 139-144.
- Ikeuchi, K. & Horn, B.K.P. (1981). "Numerical Shape from Shading and Occluding Boundaries", Artificial Intelligence, 17(1-3), 141-184. https://cse.buffalo.edu/~jryde/cse673/files/Numerical_Shape_from_Shading_and_Occluding_Boundaries.pdf
- Ward, G.J. (1992). "Measuring and Modeling Anisotropic Reflection", ACM SIGGRAPH Computer Graphics, 26(2), 265-272.
- Chen, G., Han, K., & Wong, K.Y.K. (2018). "PS-FCN: A Flexible Learning Framework for Photometric Stereo", ECCV 2018. https://arxiv.org/abs/1807.08696
- Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., & Ng, R. (2020). "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", ECCV 2020.
- Remondino, F., Nocerino, E., Toschi, I., & Menna, F. (2023). "A Critical Analysis of NeRF-Based 3D Reconstruction", Remote Sensing, 15(14), 3585. https://www.mdpi.com/2072-4292/15/14/3585
- Basri, R. & Jacobs, D. (2003). "Lambertian Reflectance and Linear Subspaces", IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2), 218-233.
- Hayakawa, H. (1989). "Photometric Stereo under a Light Source with Arbitrary Motion", Journal of the Optical Society of America A, 11(11), 3079-3089.
- Frankot, R.T. & Chellappa, R. (1988). "A Method for Enforcing Integrability in Shape from Shading Algorithms", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10(4), 439-451.
- Ikeuchi, K. et al. (1999). "Multi-spectral Photometric Stereo for Cultural Heritage Applications", Technical Report, University of Tokyo.
- Shi, B. et al. (2014). "A Benchmark Dataset and Evaluation for Non-Lambertian and Uncalibrated Photometric Stereo", IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2), 271-284.
- Santo, H., Samejima, M., Sugano, Y., Shi, B., & Matsushita, Y. (2017). "Deep Photometric Stereo Network", ICCV 2017 Workshops. https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w9/Santo_Deep_Photometric_Stereo_ICCV_2017_paper.pdf
- Chen, G. et al. (2019). "Self-calibrating Deep Photometric Stereo Networks", CVPR 2019.
- Park, J., Sinha, S.N., Matsushita, Y., Tai, Y.W., & Kweon, I.S. (2016). "Robust Multiview Photometric Stereo Using Planar Mesh Parameterization", IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(8), 1591-1604.
- Silver, W.M. (1980). "Determining Shape and Reflectance Using Multiple Images", PhD thesis, MIT.