230111 JVET(AC) 회의에서 다음과 같은 제목으로 기고서가 공개되었다.

"EE1: Summary of Exploration Experiments on Neural Network-based Video Coding"

 

EE란 Exploration experiment의 약어로 다음 미팅사이에 진행되는 숙제라고 생각하면 된다.

 

JVET-AC2023은 Neural network에 대해 투고된 기고서들을 대상으로 회의 현장에서 주어진 코멘트를 기반으로한 숙제들을 담고 있다.

 

여기서 Proponets는 CPU와 GPU의 Run-time, 그리고 PSNR과 MS-SSIM에 대한 실험결과를 반드시 보고해야한다.

그리고 Common test condition은 JVET-AB2016을 참조하여야 한다.

 

내가 관심있어하는 몇가지 기고서만 다뤄보도록 한다.

 

1. Exploration experiments on Enhancement filters

 

JVET-AC0106: EE1-1.10: Complexity Reduction on Neural-Network Loop Filter [J. N. Shingala, A. Shyam, A. Suneia, S. P. Badya (Ittiam), T. Shao, A. Arora, P. Yin, S. McCarthy (Dolby)]

 

위의 기고서는 원래의 모델에서 2D conv. (3x3)의 역할을 1D conv. (1x3 and 3x1)으로 대체하여 파라미터의 개수나 모델의 부하를 줄이는 것을 목표로 하는 것으로 보여진다.

 

JVET-AC0064: EE1-1.4: On adjustment of residual for NNLF [Z. Dai, Y. Yu, H. Yu, D. Wang (OPPO)]

 

위의 기고서는 Loop filter의 성능을 개선시키기 위해서 아래의 파라미터를 사용하였다.

1. recon. yuv

2. pred. yuv

3. Base QP

4. Slice QP

5. Slice type

 

2. Exploration experiments on NN-based inter coding

 

JVET-AC0114: AHG11: Deep Reference Frame Generation for Inter Prediction Enhancement [J. Jia, Y. Zhang, H. Zhu, Z. Chen (Wuhan Univ.), Z. Liu, X. Xu, S. Liu (Tencent)]

 

위의 기고서는 Inter coding을 위해 딥러닝 기반 새로운 참조 프레임을 만드는 것을 목표로 한다.

성능은 VTM-11.0_nnvc2.0을 Anchor로 "LDB: -3.18%/-11.89%/-9.21%, RA: -4.32%/-10.71%/-10.07%} 정도 달성하였다.

위의 성능을 달성하기 위해서 두개의 recon. 프레임과 QP maps를 사용하였는데, 정확히 어떤 프레임과 QP를 사용하였는지는 모르겠다. (아마 많은 튜닝을 거친 녀석들을 것이다.)

 

EE 연구내용으로는 최근 CTC를 사용하고 좀 더 성능을 최적화하는 것이다.

+ Recent posts