정리 공간

[Aesthetics] 1. Photo Aesthetics Ranking Network with Attributes and Content Adaption 본문

Computer Vision/Paper

[Aesthetics] 1. Photo Aesthetics Ranking Network with Attributes and Content Adaption

GreenD93 2019. 6. 20. 10:55

제목: Photo Aesthetics Ranking Network with Attributes and Content Adaption, 2016, ECCV

저자: Shu Kong, Xiaohui Shen, Zhe Lim, Radomir Mech, Charless Fowlkes

 

Paperhttps://arxiv.org/abs/1606.01621

Githubhttps://github.com/aimerykong/deepImageAestheticsAnalysis

 

 

1. Problem state

 

1.1 Dataset

 

Aesthetics analysis에 사용되고 있는 기존 DataAVA, PN, CUHKPQ가있다. 그러나, 이러한 Dataset은 아래와 같은 한계점이 존재한다.

(1) Style attribute annotation 또는 점수의 분포 정보를 제공하지 않는다.

(2) Aestheticsbinary로 되어있기 때문에 편향되어 있다.

 

1.2 Attribute-adaptive models:

 

이미지의 Aesthetics를 평가하기 위해 low-level statistics (e.g., color histogram and wavelet analysis) 또는 전통적인 photographic rules (e.g., region composition and rule of thirds)와 같은 방법들이 사용되었다. 하지만, 이러한 feature들은 2가지 어려움이 있다.

 

(1) high-level의 의미론적 속성을 나타내는 feature engineering은 매우 어려운 작업이다.

(2) 또 이러한 feature의 속성을 선택하는 것은 사진의 전체적인 aesthetics 를 고려하지 않는 경우가 발생할 수 있다.

 

1.3 Content-adaptive models:

 

이미지의 content 정보는 aesthetics 분석에 효과적임을 이전연구들은 보여준다. 하지만, 이 분석방법은 어떤 category level인지에 대한 정보가 주어져야 하며, modeloutput은 하나의 hard level을 나타내는데 이는 연속적인 점수보다 좋지 않다.

 

 

2. Main idea

 

2.1 AADB Dataset:

 

저자는 Flicker website에서 이미지를 다운로드 후, 해당 이미지당 5명의 AMT에게 이미지의 attributeaesthetic score에 대해서 annotate를 주게 하였으며 5명의 평가자의 평균점수를 ground-truth aesthetic score로 정의하였다. AMT annotate작업에 사용된 11개의 속성은 professional photographers의 상의롤 통해 결정된 11개의 속성을 사용하였다.

 

(1)   Interesting content (2) Object emphasis (3) Good lighting (4) Color harmony (5) Vivid color

(6)   Shallow depth of field (7) Motion blur (8) Rule of thirds (9) Balancing element (10) Repetition

(11) Symmetry

 

추가로, 각 이미지에 대한 평가작업은 subject task이기 때문에 reliable하지 않을 수 있는데, batch 단위로 Spearmans’s rank correlation을 사용하여 annotation의 일관성 분석을 진행하였다.

 

2.2 Fusing Attributes and Content for Aesthetics Ranking:

 

 

 

모델을 만들기 위해서 AlexNet 모델을 이용하여 fine-tuning하였고 다음으로 Siamese network를 이용하여 fine-tuning하였다.

 

* Average score rescaling [0,1]

 

- Attribute-Adaptive Model

 

(1) 이전 모델에서는 aesthetics classification을 위해서 image의 속성들을 input features들을 사용해왔지만, 본 논문의 모델에서는 additional activation labels를 추가하여 informative attributesencode하게 하였다.

 

- Content-Adaptive Model

 

(1) Hardcategory selection을 하는 것이 아니라 softmax outputweighting vector로 사용하였는데, 이는 content categoriesnon-exclusive될 수 있게 한다.

 

(2) Alexnet fc7 feature를 이용하여 각 이미지를 10-means clustering을 한 후, 10개의 clustering group을 진행하였으며 test imagecentroids의 거리 차이를 softmax prediction weights로 변환하였다.

 

모델의 lossoverall scorelossrank loss그리고 attribute loss가 더해져서 사용된다.

 

 

3. Comparative Results

모델 평가는 Shpearman’s 계수가 사용되었으며, AADB datasetAVA dataset을 각각 사용하였다.

 

 

4. Appendix

 

Feature

Description

Answer options

 Balancing element

 whether the image contains balanced elements

 Negative -- null -- Positive

 Content

 whether the image has good/interesting content

 Negative -- null -- Positive

 Color harmony

 whether the overall color of the image is harmonious

 Negative -- null -- Positive

 Depth of field

 whether the image has shallow depth of field

 Negative -- null -- Positive

 Lighting

 whether the image has good/interesting lighting

 Negative -- null -- Positive

 Motion blur

 whether the image has motion blur

 Negative -- null -- Positive

 Object emphasis

 whether the image emphasizes foreground objects

 Negative -- null -- Positive

 Rule of thirds

 whether the photography follows rule of thirds

 Negative -- null -- Positive

 Vivid color

 whether the photo has vivid color, not necessarily harmonious color

 Negative -- null -- Positive

 Repetition

 whether the image has repetitive patterns

 null -- Positive

 Symmetry

 whether the image has symmetric patterns

 null -- Positive

 Overall

 Overall aesthetics scores

 1 -- 5