NVIDIA GeForce GTS 450 – ASUS (prvi deo)
Pre nego što se pojavio GeForce GTX 460, kompaniji NVIDIA je trebalo dugo vremena da se vrati na noge i napravi karticu koja će biti atraktivnija od direktnog konkurenta. Iako je tekući kvartal kompanija posluje sa manjim gubicima u odnosu na Q1 i Q2, jedini realan razlog za to je, praktčno GF104 GPU. Setimo se još jednom veoma dugog čekanja na Fermi, čija je arhitektura konačno predstavljena pred sam kraj zime 2010. godine. Nakon testirana prve kartice iz nove GeForce GTX400 serije, utisci su bili pomešani. Performanse su bile očekivane, budući da je GF100 čip postao najbrži grafički čip u istoriji, ali ne i očekivano dobre, jer je veliki broj korisnika ipak očekivao veću prednost u odnosu na konkurentsku Radeon 5800 seriju proizvoda i Cypress koji se već neko vreme nalazio na tržištu. Dijamteralno suprotno od performansi našle su se potrošnja i zagrevanje, koji su bili na znatno većem nivou u odnosu na konkurenciju, a ni buka nije bila baš prihvatljiva za svačije uši. Sve to na stranu, najveći problem ove serije kartica je bila dostupnost. Još u mesecima pred pojavljivanje na tržištu, u kojima su se informacije o Fermi čipu i novim kartama svodile na glasine, nekoliko „insajdera“ je širilo informacije o veoma niskom yieldu GF100 čipa tokom proizvodnje, koje je NVIDIA odlučno opovrgavala, ali je već po samoj činjenici da je GF100 stigao sa manje aktivnih CUDA jezgara unutar GPU-a nego što ih fizički ima (480 u odnosu na 512) – bilo sasvim jasno da u celoj priči ima istine. Svako ko zna koliko je nezgodno napraviti ogroman monolitan GPU u sitnom, još uvek svežem litografskom postupku zna i da je princip smanjenja aktivnih delova čipa na silicijumskoj pločici i jedini siguran način za sigurno povećanje yield-a. Krajnje jeftin i jednostavan trik, ali funkcioniše! Isti princip je primenjen i sa GF104 čipom, prvim derivatom Fermija.
Poslednja GeForce kartica koja je korisnicima bila atraktivna, a da je bila i potrošačima interesantna, nosila je oznaku GTX260. Nažalost, on je bio baziran na isuviše velikom GPU-u i ovaj SKU nije bio preterano profitabilan za one koji su ih tržištu nudili. Slična je bila i priča sa GeForce GTX275, koji je imao bolju profitnu marginu, ali je bio znatno manje uspešan na tržištu jer je cenom izlazio iznad „sweet spot“-a. Zapravo, poslednja GeForce kartica koja je bila uspešna i po broju prodatih primeraka i količini novca koji je zarađen na svakom primerku bio je 8800 GT, uključujući i rebrendirane verzije sa 9800 GT i GTS2xx oznakama.
Prelazak u 40nm litografiju je za momke iz NVIDIA i TSMC-a bio noćna mora. Arhitektura na kojoj su usavršili proizvodni postupak, Cypress / Evergreen generacija čipova je dosta zahvalnija jer se radi o nadogradnji arhitekture koju je TSMC već proizvodio, pa je GPU za proizvodnju bio samo veći, a ne i preterano komplikovaniji za „štampu“. Fermi je, sa svojim CUDA procesorima bio nešto potpuno novo, a postavio je i nove standarde kada je u pitanju površina die-a, te je za sve uključene u avanturu bio priličan izazov. Iako su problemi u dobroj meri prevaziđeni, postalo je jasno da je Fermi ne samo isuviše veliki, već i prilično kompleksan za to koliko je 40nm proces proizvodnje trenutno razvijen. Zbog toga, NVIDIA je prihvatila kakve-takve rezultate sa GF100 čipom i odmah krenula dalje u razvoj derivata, GF104 i GF106. Pre gotovo dva meseca, pred nama se našao GF104, koji je bio i redukovana, ali i unapređena verzija GF100 čipa, a GF106 celu priču dodatno “spušta” naniže. Podsetimo se prvo kakve razlike na nivou ALU jedinica i kontrolera donosi GF104, kako bismo mogli da razumemo kakvu filozofiju prati GF106…
Drugi Fermi derivat – GF106
Grafički čip GF104 je baziran na istoj arhitekturi i spisak mogućnosti koje podržava i koje su implementirane su gotovo „preslikane“ – naravno, dosta toga je redukovano, premešteno, a dodate su i neke novine. GF104 je GPU koji, za sada, pogoni dva GeForce GTX 4xx modela – GTX 460 sa 768MB i sa 1024MB memorije. GeForce GTX 460 je, kao što je i logično, zamena za uspešne GeForce GTX 260 modele, što odgovara i njihovom trenutnom tržišnom pozicioniranju. GF104 je izrađen u 40nm litografiji, baš kao i prvi Fermi. Čini ga nešto manje od dve milijarde tranzistora, što je cifra koja je, čini se, postala „normalna“ za kartice više srednje klase. Novi GPU, GF106 je namenjen da bude pogon za novu seriju kartica sa oznakom GeForce GTS 450. Njena tržišna pozicija odgovara “price tag-u” od oko 120 do 130 dolara, što znači da cilja na tržište koje je preplavljeno odličnim Radeon HD5700 modelima, koji su na tržištu već čitavih godinu dana.
GF100 čip se proizvodi sa ukupno četiri GPC-a (Graphics Processor Cluster), od kojih svaki sadrži po 4 grupe sa ukupno 32 shader procesora, pa je ukupni broj CUDA jezgara 512 (4x4x32). Uz njih, u svaki GPC smešteno je 16 teskturnih jedinica (što ukupan broj dovodi do 64) i 12 ROP jedinica (ukupno 48). Veoma važan deo Fermi arhitekture je PolyMorph Engine, koji između ostalog sadrži i jedinicu za teselaciju, koja je jedna od ključnih noviteta koje je doneo DirectX 11 API. Svaki GPC sadrži četiri PME, pa ih je u čipu ukupno 16. Memorijska magistrala je široka 384 bita (6×64), a čip je moguće uparivati sa memorijskim čipovima DDR5 generacije kako bi se nadoknadio „zaostatak“ za prethodnom generacijom, koja je posedovala 512-bitnu memorijsku magistralu, ali i podršku za samo DDR3 generaciju memorijskih čipova. GeForce GTX465 je premostio jaz između GeForce GTX 470 i GTX 460 modela, a najviše je pomogao u tome da se popuni prostor u klasi kartica koje koštaju oko 300 dolara. Nažalost, ova kartica je za NVIDIA-u prilično neisplativa, pa ju je zamenio GeForce GTX 460 model.
Arhitektura je kod GF104 i GF106 čipa takođe bazirana na streaming jedinicama organizovanim u “klastere” kojih po CUDA jezgru sada ima i više nego kod GF100 čipa. Svih 1.95 milijarde tranzistora je kod GF104 čipa stalo na površinu od 320 kvadratnih milimetara, što je tek za nijansu manje od Cypress-a i njegovih 334 kvmm. Kao što smo već gore naveli, GF100 se sastoji od četiri “klastera” u kojima su smeštena po četiri multi-jezgra i u svakom po 32 stream jedinice. Kod GF104, postoje dva “klastera” (GPC, graphics processing cluster) koji i dalje sadrže po četiri multi-jezgra, ali se sada u svakom od njih nalaze ne 32, nego 48 stream jedinica. Ukupan broj ovih ALU jedinica, dakle, u GF104 čipu ima 384, što je za 60% više nego kod GeForce GTX285 GPU-a. GF104 takođe, fizički ima 65 jedinica za teksturisanje (TMU, texture managing / mapping units). No, u specifikaciji za GeForce GTX 460 stoji da kartica raspolaže sa 336 streaming procesora i 56 TMU-a. Pogađate, jedan od multi-jezgara, tj. polovina „klastera“ unutar čipa je neaktivno, baš kao i kod GF100 čipa, koji fizički ima 512 streaming jedinica, ali i kod najjačeg GeForce GTX 480 čipa ima 32 neaktivne jedinice (tj. takođe jedno multi-jezgro). Svako od dva GPC jezgra ima sopstveni PolyMorph Engine koji je zadužen za heavy lifting tj. intenzivne vertex operacije i tesselation. GF104 poseduje osam PME jedinica od kojih je sedam aktivno.
GF106 GPU ima površinu od oko 240 kvadratnih milimetara i sa ovim čipom NVIDIA je dodatno smanjila snagu, zadržavajući sve dobre osobine (tj. čitav spisak mogućnosti) koje krase i dva prethodna GPU-a iz Fermi familije. Dok GF104 ima dva klastera (u svakom po četiri multi-jezgra), GF106 ima jedan ovakav klaster. Svako multi-jezgro ima 48 stream procesora (GF100 ima 32), a osobinu svake CUDA (streaming) jedinice ćemo opisati dole. Prvo, dakle, da “apsolviramo” priču oko broja različitih klastera i funkcionalnih jedinica unutar GF1xx čipova. GF100 se sastoji od četiri “klastera” (Graphics Processing Cluster), 16 streaming multiprocessing jezgara (multi-jezgara, kako smo ih mi zvali) i šest delova crossbar memorijskog kontrolera (svaki širine 64 bita). GF104 ima dva GPC (klastera), osam multi-jezgara i četiri memorijska kontrolera (ukupno 256 bita). Na kraju i sasvim logično, GF106 ima jedan GPC klaster, četiri multi-jezgra i dva memorijska kontrolera. Ponovićemo još jednom i da je multi-jezgro kod GF100 imalo 32 CUDA (streaming) ALU jedinice, dok ih kod GF104 i GF106 ima po 48.
Detaljnije, specifikacija
Broj CUDA jezgara po multi-jezgru je, dakle, povećan za 50% u odnosu na GF100, a kao što znamo, svako CUDA jezgro poseduje izvršnu jedinicu za INT i FPU kalkulacije. Deljene jedinice za load/store sada broje po osam komada po GPC jezgru, a njihova efikasnost od 16 stream adresa po kloku je ostala identična onoj kod Fermija. S druge strane, broj SFU (special function units) je povećan. Ove jedinice je imao i Fermi, ali i GTX2xx serija kartica, tj. prva generacija DX10 GeForce akceleratora. Za razliku od CUDA jezgara koji barataju sa skalarnim vrednostima, bilo u celobrojnom ili FPU formatu, SFU jedinice su zadužene za kompleksne operacije kao što su sin, cos, exp, sqr (square root) i tome slično. Dok ih je inače veći GF100 imao četiri, GF104 i GF106 ih ima osam. U kompaniji NVIDIA su nakon brojnih istraživanja shvatili da su ove jedinice prilično opterećene u velikom broju modernih igara, pa verujemo da će i povećan broj SFU-a donekle uticati na povećanje performansi.
Sećate li se priče o pametnoj jedinici koja hrani SP jezgra podacima i brine se o pravilnom load-u? Ultra Threaded Dispatch Processor? Broj ovih jedinica je kod GF104, u odnosu na GF100 dupliran, pa ih sada ima šest po multi-jezgru (2 warp jedinice + 4 dispatch jedinice), što povećava efikasnost svakog CUDA jezgra. Broj TMU jedinica je, naravno, manji u odnosu na GF100, ali je njihov broj po multi-jezgru veći, što znači da je pipeline drugačije izbalansiran. Zapravo, broj prisutnih TMU jedinica kod GF100 i GF104 je isti – 64, pa nam je žao što je deo jezgra deaktiviran, jer je prilično jasno da texture managing units imaju prilično veliki uticaj na performanse u igrama. Broj aktivnih TMU jedinica kod GF106 je – 32.
Svako multi-jezgro ima 64K posvećene keš memorije koja može biti konfigurisana kao 48K deljene + 16K L1 keš memorije ili obrnuto. Količina L2 keš memorije kod GF100 GPU-a je 768K, dok je kod GF104 i GF106 čipa smanjena na 512K. Na L2 memoriju se oslanjaju load/store jedinice koje smo već pomenuli, a ova keš memorija se nalazi između GPC jezgara i memorijskih kontrolera koji su organizovani u crossbar i zapravo predstavljaju četiri jedinice širine od 64 bita, što GPU-u daje ukupno 256-bita širok put ka video memoriji. GF106 ima 16 raster operators (ROP) ili render-back end jedinice.
GeForce GTS 450 po specifikaciji radi na 783 / 1566 MHz, iako će ovu cifru većina partnera malo „doterati“, baš kao što je slučaj i sa testiranom karticom. GF106, kao i ostatak Fermi familije, naravno, radi sa GDDR5 memorijskim standardom. Još neke novine koje je NVIDIA uvela kod GF104 čipa, a ponovila i kod GF106 je podrška za Dolby True HD audio i DTS-HD (via HDMI), poboljšan menadžment za isključivanje neaktivnih delova čipa (imao ih je i GF100, ali je i on u stanju mirovanja dosta trošio). GF106 kartice bi trebalo da su dosta štedljivije u idle situacijama. Međutim, možda najbitnija sporedna stvar vezana za GF104 i GF106 je, konačno, podrška za video izlaz na tri displeja u isto vreme!
Specifikacija:
Graphics Card
GeForce GTS 450
GeForce GTX 460
GeForce GTX 465
GeForce GTX 470
GeForce GTX 480
GPU Transistors
1.17 Billion
1.95 Billion
3.2 Billion
3.2 Billion
3.2 Billion
Graphics Processing Clusters
1
2
4
4
4
Streaming Multiprocessors
4
7
11
14
15
CUDA Cores
192
336
352
448
480
Texture Units
32
56
44
56
60
ROP Units
16
768MB=24 / 1GB=32
32
40
48
Graphics Clock
(Fixed Function Units)
783 MHz
675 MHz
607 MHz
607 MHz
700 MHz
Processor Clock
(CUDA Cores)
1566 MHz
1350 MHz
1215 MHz
1215 MHz
1401 MHz
Memory Clock
(Clock Rate/Data Rate)
902/3608 MHz
900/3600 MHz
837/3348 MHz
837/3348 MHz
924/3696 MHz
Total Video Memory
1024MB GDDR5
768MB / 1024MB GDDR5
1024MB GDDR5
1280MB GDDR5
1536MB GDDR5
Memory Interface
128-Bit
768MB=192 / 1GB=256-Bit
256-Bit
320-Bit
384-Bit
Total Memory Bandwidth
57.7 GB/s
86.4 / 115.2 GB/s
102.6 GB/s
133.9 GB/s
177.4 GB/s
Texture Filtering Rate
(Bilinear)
25.1 GigaTexels/s
37.8 GigaTexels/s
26.7 GigaTexels/s
34.0 GigaTexels/s
42.0 GigaTexels/s
GPU Fabrication Process
40 nm
40 nm
40 nm
40 nm
40 nm
Output Connections
2x Dual-Link DVI-I
1x Mini HDMI
2x Dual-Link DVI-I
1x Mini HDMI
2x Dual-Link DVI-I
1x Mini HDMI
2x Dual-Link DVI-I
1x Mini HDMI
2x Dual-Link DVI-I
1x Mini HDMI
Form Factor
Dual-Slot
Dual-Slot
Dual-Slot
Dual-Slot
Dual-Slot
Power Input
6-Pin
2x 6-Pin
2x 6-Pin
2x 6-Pin
6-Pin + 8-Pin
Thermal Design Power (TDP)
106 Watts
768MB=150W / 1GB=160W
200 Watts
215 Watts
250 Watts
Recommended PSU
400 Watts
450 Watts
550 Watts
550 Watts
600 Watts
GPU Thermal Threshold
95°C
104°C
105°C
105°C
105°C
Opis kartice, “performance review”, OC, zaključak i ostale detalje očekujte uskoro!