画像・動画・音声処理および XR 一人アドベントカレンダー 1 日目の記事です。
このアドベントカレンダーについて
今年も 12 月になりました。12 月といえば、アドベントカレンダーという形式で記事を書くイベントがあると思います。
昨年は初めてのひとりアドベントカレンダーということで、「じゃんけんアドベントカレンダー」というものに挑戦しました。
正直かなり苦しかったのですが、今年もやっていこうと思います。
今年のテーマは、最近自分が勉強したいと思っている「画像・動画・音声処理および XR」についてです。
これらの分野を強制的にキャッチアップするよう、毎日少しずつ勉強してその内容を記事にしていこうと思います。
ということで、「画像・動画・音声処理および XR ひとりアドベントカレンダー」の始まりです。
余談:「メタバースひとりアドベントカレンダー」という名前にしようかと思いましたが、やめておきました。興味の方向性としてはそんなかんじです
今日のテーマ
さて、自分は現在、画像・動画・音声データの取り扱いや、XR について完全素人です。
画像・動画・音声については、画像の平準化程度の変換をちょっとしたことがあったり、動画をツールで HLS 形式に変換して Web アプリに組み込んだことがあったりする程度です。
XR については、今年の秋に Oculus Quest 2 を買ったのですが、先に手を出したいことがあったので未開封で放置されています。
そんな全然何も知らない状態から勉強していくため、まず今日は、自分が聞いたことがある要素などを洗い出してみようと思います。
今日挙げた要素を起点にして、明日以降いろいろ勉強してみます。
目次
以下の 6 つの分類で、ざっくり知っている要素をまとめていきます。
- 画像
- 動画
- 音声
- XR
- 基礎技術
- 応用的な技術
画像
まずは画像について気になる要素を挙げてみます。
-
画像データの形式
- PNG
- JPEG
- GIF
- SVG
- 画像処理アルゴリズム
- 画像編集ソフト
- 画像処理ライブラリ
- OpenCV
なんとなく知っていることもありますが、基本的なデータ形式や画像処理アルゴリズムも改めて勉強したいなと思っています。
機械学習
画像に関する機械学習が登場する要素として、以下のようなものも気になっています。
- 画像認識
- 物体検出
- 顔認識
- 各種トレーニング済み API
動画
次に動画についてです。
-
動画データの形式
- MP4
- コーデック
- エンコード
- 物体検出
- 動画編集ソフト
- 動画編集ライブラリ
- CD・DVD・BD
動画については全然何も知らないです。
コーデック・エンコードといった言葉も聞いたことがある程度なので、そのあたりの基本から勉強したいです。
動画配信
最近は YouTube などでの動画配信も流行していると思います。
動画配信関連では以下の要素が気になっています。
- 動画配信サービス
-
ストリーミングデータの形式
- HLS (HTTP Live Streaming)
- OBS
クラウド
仕事で AWS などを扱う機会も多いので、動画と関連するクラウドサービスも知っておきたいです。
- Amazon Elastic Transcoder
- AWS メディアサービス
- 各種トレーニング済み API
音声
続いて音声についてです。
- 音声データの形式
- 音声認識
- 文字起こし
- 機械音声
- ボイスチェンジャー
- 各種トレーニング済み API
音声については動画以上に全くよく分かっていませんが、興味としてはしっかり理解したい分野です。
XR
続いて、XR についてです。
- VR
- AR
- MR
VR・AR 意外に MR というジャンルがあるらしいことは知っていますが、何を指しているのか理解していないので改めて調べたいです。
個人的に本命は VR で、VR まわりはもっと細かく色々勉強したいことがあります。
VR SNS・VR エンジン
VR SNS などが自分の知りたいことの中でかなり本命です。
- VRChat
- Second Life
- Sansar
- Cluster
-
NeosVR
- LogiX
- VKet Cloud
現在最も広く認知されている VRChat をはじめとして、個人的に大本命の NeosVR には絶対手を出したいです。
NeosVR では、LogiX なるものでプログラミングできるというのを耳にしています。
アバター
VR のアバターについても気になるところです。
- VR アバター
- Live2D
- モーションキャプチャ
関連して、ゲームや VTuber などで使われている Live2D という技術も気になっています。
デバイス
XR 関連のデバイスについても知りたいです。
- VR ヘッドセット
- VR ゴーグル
- HMD
現状では、これらの用語の違いも分かってないです。
クラウド
XR 関連のクラウドサービスも気になります。
- AWS Sumerian
- NVIDIA CloudXR
モバイル
モバイル関連で聞いたことがあるものも挙げておきます。
- ARCore
- ARKit
サービス・団体・イベント
XR についてはかなり気になっているので、既存のサービスや法人など、有名どころをおさえて今後情報収集できるようにしたいです。
- XR サービス
- XR 関連法人
- XR 関連研究室
- XR 関連イベント
基礎技術
ここからは、上記の技術の基礎になっていそうなものや、関連して気になる要素などを挙げていきます。
CG
まずは CG (Computer Graphics) についてです。
- CG 全般
- 3D モデリング
- Blender
- ホログラム
今は一切知識がないですが、知りたい分野です。
GPU
最近は機械学習で GPU に触れるようになってきたのですが、GPU について知らなすぎてハマることが多いので、この機会に勉強したいです。
- GPU の仕組み
- CUDA
- nouveau
- OpenCL
もちろん GPGPU ではないグラフィックス用途も勉強したいです。
Web
Web での関連技術も気になります。
- WebGL
- WebGPU
機械学習
画像・動画などの処理と関連して、GAN についても学びたいです。
- GAN (敵対的生成ネットワーク)
数学
きっと登場するんだろうなという数学の分野を挙げてみます。
- 線形代数
-
フーリエ変換
- FFT
応用的な技術
最後に、応用的な分野についてふれてみます。 (応用的というのは個人の主観です)
ゲーム
まずはゲームについてです。
-
ゲームエンジン
- Unity
- Unreal Engine
- Steam
- XR ゲーム
XR の話題でゲームエンジンが出てくることもあるので、その辺りを中心におさえたいです。
アート
少しずれているかもしれませんが、アート系にも興味があります。
- デジタルアート
- メディアアート
- Processing
ブロックチェーン
最後に、メタバースと一緒によく話題にされるブロックチェーン関連です。
- NFT
- NCR (Neos クレジット)
NFT は仕組みを全く分かっていないので、仕組みを勉強したいです。
また、NCR という通貨が気になります。
おわりに
以上、ひとまず初日の記事として、今後勉強したいテーマを書き出してみました。
明日以降、これらについて調べて記事を書いていこうと思います。
数がかなりありますし、まずはそれぞれ浅く調べてみて、より自分が深掘りしたい分野を探していくつもりです。