Home |

Relatívna Atribúty

Marr Prize (najlepší kniha Award) víťaz, 2011

Abstraktné Human-nameable vizuálny "atribúty" môžu využívať rôzne uznanie úlohy. Avšak, existujúce techniky obmedziť tieto vlastnosti nadradených štítkov (napríklad, osoba "usmieva", alebo nie, je scéna "suché" alebo nie), a tak nepodarí zachytiť všeobecnejšej sémantické vzťahy. Navrhujeme modelovať relatívnej atribúty. Vzhľadom k tomu, tréningové dáta s uvedením, ako objekt / scéna kategórie sa týkajú podľa rôznych atribútov, učíme Bodovaný funkciu na atribútu. Nadobudnuté rebríčku funkcie predpovedať relatívnu silu jednotlivých vlastností v nových obrázkov. Potom sme vybudovať generatívne model pred spoločnom priestore výstupov atribútov poradí, a navrhla novú podobu nula-shot učenia, v ktorom dohľadu vzťahuje neviditeľného objektu kategórii predtým videný objekty cez atribútov (napr., "medvede sú kožušník ako žirafy "). Ďalej ukazujú, ako navrhovaná relatívna atribúty umožňujú bohatšiu slovnú opisy nových obrázkov, ktoré v praxi sú presnejšie pre ľudskú interpretáciu. Ukážeme prístup na kolekciách tvárou a prírodných scén, a ukázať svoje jasné výhody oproti tradičným predikcie binárny atribút pre tieto nové úlohy. Motivácia Binárne atribúty sú reštriktívne a môže byť neprirodzené. Vo vyššie uvedených príkladoch, pričom jeden je možné charakterizovať obraz na ľavý horný a pravý horný, ako prírodných a človekom-vyrobené respektíve, čo by si opísal obraz v top-centra,? Má význam iba spôsob, ako charakterizovať je s ohľadom na ďalšie snímky: to je menej prirodzené ako obrázok na ľavej strane, ale skôr ako na obrázku na pravej strane. Návrh V tejto práci navrhujeme modelovať relatívnej atribúty. Na rozdiel od predvídanie prítomnosť atribútu, relatívnej atribút indikuje silu atribútu v obraze, pokiaľ ide o iné obrazy. Okrem toho, že prirodzenejšie, relatívna atribúty ponúkajú bohatšie spôsob komunikácie, čo umožňuje prístup k podrobnejším ľudskej dohľadu (a tak potenciálne vyššiu presnosť rozpoznávania), rovnako ako schopnosť vytvárať viac informatívne popisy nových obrázkov. Máme navrhnúť prístup, ktorý sa učí Bodovaný funkciu pre každý atribút, rovnako vzájomná podobnosť obmedzenia na pary príkladov (alebo všeobecnejšie čiastočné usporiadanie na niektorých príkladoch). Naučili poradí funkcie môže odhadnúť skutočný-cenil pozíciu pre obrázky, ktoré udávajú relatívnu silu atribútu prítomnosti v nich. Predstavíme nové formy nula-shot učenia a obrazový opis, ktoré využívajú relatívnej atribút predpovede. Prístup Učenie relatívna atribúty: Každý relatívnej atribút sa dozvedel prostredníctvom učenia sa radí formuláciu, rovnako porovnávacie dohľadu, ako je uvedené nižšie:

Rozdiel medzi učením široký marží rebríčka funkciu (vpravo), ktorý vynúti požadované objednanie na výcvikových bodov (1-6), a široký marží binárne klasifikátor (vľavo), že iba oddeľuje dve triedy (+ a -), a robí nie nevyhnutne zachovať požadovaný usporiadanie na mieste je uvedený nižšie:

Román nula-shot učenia: Zaoberáme sa nasledujúce nastavenia

N celkom kategórií: S pozorované kategórie (spojené snímky sú k dispozícii) + U neviditeľné kategóriách (žiadne snímky sú k dispozícii pre tieto kategórie)
S pozorované kategórie sú popísané vo vzťahu k sebe pomocou atribútov (nie všetky dvojice kategórií potrebné súvisí všetkých atribútov)
U neviditeľné categorires sú popísané vzhľadom k (podmnožina) videl kategórií z hľadiska (podmnožina) atribúty.

Prvýkrát sme trénovať sadu relatívnych atribútov pomocou dohľad uvedené na videný kategórií. Tieto atribúty môžu byť tiež vopred vyškolení z externých dát. Potom sme vybudovať generatívne model (Gaussian) pre každú kategóriu videný pomocou reakcie relatívnych atribútov snímok z videný kategórií. Potom odvodiť parametre generatívnych modelov neviditeľných caregories využitím ich relatívnej opisy s ohľadom na vidieť kategórií. Vizualizácia jednoduchého prístupu sme zamestnávajú k tomu je uvedené nižšie:

Skúšobný obraz je priradený ku kategórii s maximálnou pravdepodobnosti. Automatické generovanie relatívna textové desriptions obrázkov: Vzhľadom k tomu, obrázok som bol popísaný, môžeme hodnotiť všetci naučili zaraďovať funkcie na I. Pre každý atribút, sme identifikovať dve referenčné snímky ležiace na oboch stranách I, a nie sú príliš ďaleko alebo príliš blízko na obrázok I. I je potom opísaný vo vzťahu k obom referenčnými obrazy, ako je uvedené ďalej:

Ako je uvedené vyššie, okrem popisu obrazu vzhľadom k ostatným obrázkov, môže náš prístup tiež popisovať obraz vzhľadom k ostatným kategóriám, čo čisto textový popis. Je zrejmé, že relatívna popisy sú presnejšie a informácií než konvenčné binárne popisu. Experimenty a výsledky Vykonávame experimenty na dvoch dátových súborov: (1) Vonkajšie Scene Recognition (OSR) obsahujúci 2688 obrázkov z 8 kategórií: pobrežie C, prales F, diaľničné H, vnútri-mesto I, horská M, open-country O, ulice S a vysoký-stavebné T. Používame GIST funkcie reprezentovať obrazy. (2) podmnožina verejné Číselné údaje Face Database (PubFig) obsahujúci 772 obrázkov z 8 kategórií: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V a Zac Efron Z. Používame reťazcový podstatu a a farebné funkcie, ktoré predstavujú obrazy. Zoznam atribútov použitých pre každý dátové sady, spolu s binárnou a relatívnej atribútov anotácia sú uvedené nižšie:

Zero-shot učenia: Porovnávame náš navrhovaný prístup k dvom línií. Prvá z nich je hodnotenie založené na relatívnej atribúty (SRA). Táto základná je rovnaký ako náš prístup, okrem toho, že používa skóre binárne triedenie (binárne atribúty) miesto na skóre v rebríčku funkcií. Táto základná pomáha vyhodnotiť potrebu poradí funkciu k najlepšími vlastnosťami modelu relatívna. Náš druhý účiarie je Direct Attribute Info (DAP) model zavedený Lampert et al. v CVPR 2009. Táto základná pomáha zhodnotiť prínos relatívnej liečbe vlastností, na rozdiel od nadradených. Hodnotíme tieto prístupy na rôzny počet neviditeľných kategórií, rôzne množstvo dát použitých pri školení atribúty, rôzny počet attribtues používaného na opis neviditeľné kategórie, a rôznymi úrovňami "voľnosti", v popise neviditeľných kategórií. Podrobnosti o experimentálny set-up nájdete v našom článku. Výsledky sú uvedené nižšie:

Auto-generated image popisy: Aby bolo možné vyhodnotiť kvalitu našich relatívnych obrazových popisov na binárne náprotivky, sme vykonali štúdiu na ľuďoch. Sme dosiahli opis obrazu pomocou nášho prístupu, rovnako ako atribúty základné binárne. Sme prezentovali predmety s týmto popisom, spolu s tromi obrazy. Jeden z troch obrazov bola obraz je popísané. Úlohou subjektov bolo zaradiť tri založené obrazy na ktorý si mysleli, že s najväčšou pravdepodobnosťou jeden popisované. Presnejší popis, tým väčšia je šanca predmety majú identifikovať správny obraz. Ilustrácie úlohy predloženého predmetov je uvedený nižšie:

Výsledky štúdie sú uvedené nižšie. Vidíme, že predmety môžu určiť správny obraz presnejšie pomocou našich navrhovaných relatívnej atribúty, v porovnaní s binárne atribúty.

Popisy Príklad binárnej obrázkov, rovnako ako popisy relatívna kategórií sú uvedené nižšie:

Obraz	Binárne popisy	Relatívna popisy
	nie je prirodzené nemožno otvoriť perspektíva	viac prirodzenejšie než tallbuilding, menej prirodzené ako lese viac otvorenejší než tallbuilding, menej otvorené ako pobrežie viac perspektíva než tallbuilding
	nie je prirodzené nemožno otvoriť perspektíva	viac prirodzenejšie než insidecity, menej prirodzené ako diaľnice viac otvorenejší než ulici, menej otvorené ako pobrežie viac perspektívny ako diaľnice, menej perspektívne ako insidecity
	prírodná otvoriť perspektíva	viac prirodzenejšie než tallbuilding, menej prirodzené ako v horských viac otvorený ako v horských menej perspektívne ako opencountry
	biely nie s úsmevom VisibleForehead	viac White ako AlexRodriguez viac úsmevom ako JaredLeto, menej Smiling ako ZacEfron viac VisibleForehead ako JaredLeto, menej VisibleForehead ako MileyCyrus
	biely nie s úsmevom nie je VisibleForehead	viac White než AlexRodriguez, menej biele ako MileyCyrus menej ako úsmevom HughLaurie viac VisibleForehead ako ZacEfron, menej VisibleForehead ako MileyCyrus
	nie Young BushyEyebrows RoundFace	viac Young ako CliveOwen, menej než Young ScarlettJohansson viac BushyEyebrows ako ZacEfron, menej BushyEyebrows ako AlexRodriguez viac RoundFace ako CliveOwen, menej RoundFace ako ZacEfron

Dáta Zabezpečujeme učené relatívna atribúty a ich predpovede pre dva súbory dát použitých v našom príspevku: Vonkajší Rozpoznanie scény (OSR) a podmnožina verejných postáv Face Database (PubFig). README Stiahnuť Kód Sme modifikovali Oliviera Chappelle je RankSVM vykonávanie trénovať relatívnej atribúty s podobnosti obmedzenia. Náš upravený kód možno nájsť tu. Ak použijete náš kód, uvádzajte prosím nasledujúci papier: D. Parikh a K. Grauman relatívna Atribúty Medzinárodná konferencia o počítačovom videnie (ICCV), 2011. Publikácie D. Parikh a K. Grauman Relatívna Atribúty Medzinárodná konferencia o počítačovom videnie (ICCV), 2011. (ústna) Marr Prize (najlepší kniha Award) víťaz [ šmýkačky ] [ Diskusia (video) ] [ poster ] Nižšie sú naše ďalšie dokumenty, ktoré používajú relatívna atribúty: A. Parkash a D. Parikh atribúty pre Feedback klasifikátor európskej konferencie o počítačovom videnie (ECCV), 2012 (ústna) A. Kovashka , D . Parikh a K. Grauman WhittleSearch: Image Search s relatívnym atribútu väzba konferencie IEEE na počítačového videnia a rozpoznávania vzorov (CVPR), 2012 [ stránka projektu ] [ poster ] D . Parikh , . Kovashka , A. Parkasha K. Grauman Relatívna Atribúty pre Enhanced komunikáciu človeka so strojom (Invited paper) AAAI konferencie o umelej inteligencie (AAAI), 2012 (ústna) Preložené z http://ttic.uchicago.edu/~dparikh/relative.html Homepage

...