Miloš “Ayrton” Stamenković
Od momenta kada je Pentium 4 ugledao svetlost dana, ovaj procesor je predstavljao
predmet kritike i podeljenih mišljenja raznih stručnjaka u IT branši. Glavni
razlog za ovakvu sitauciju je bio dosta radikalni zaokret u pristupu dizajniranju
samog procesora, gde se sa Pentium 3 pristupom konačno raskkrstilo i prešlo na novu NetBurst
arhitekturu. Taj novi pristup je u prvom planu imamo cilj postizanja što većeg
radnog takta procesora bez obzira na eventualne posledice, koje je su se nedvosmisleno
primećivale. Pored toga, samo naziv arhitekture je takav da naivne korisnike
navede na razmišljanje o internetu, odnosno pomalo nebuloznu ideju da NetBurst procesori omogućavaju
povećanje brzine korišćenja interneta. Da bi što uspešnije sprovodio politiku
“megaherci pre svega”, Intel se morao potruditi da procesor koji je debitovao
na 1.4 GHz što pre ubrza kako bi isti bio u stanju da se nosi sa AMD Athlon,
pa čak i starim Pentium 3 procesorima. Prvi make up Pentium 4 je doživeo
u vidu Northwood jezgra koje je pored “sitnijeg” proizvodnog procesa, doneo
i duplo više L2 keš memorije. 0.13 mikronski proceso omogućijo je radne taktove
preko 3 GHz, dok je dvostruko veća količina keš memorije donela primetan rast performansi
čime je pokazano da NetBurst procesori mnogo zavise od količine i brzine memorije.
Ipak, pored samog doterivanja i ubrzavanja, Pentiumu 4 je gotovo očajnički
bio potreban dovoljno kvalitetan čipset kako bi mogao da pruži maksimum performansi.
RAMBUS rešenja su polako napuštena pa su polagano DDR rešenja dolazila u prvi
plan. Tako smo na kraju dobili i875 i i865 čipsetove koju su ulili novu snagu
Pentium 4 procesorima, omogućivši im rad sa 800 MHz QuadPumped magistralom,
odnosno rad sa DDR400 memorijom na 200 MHz. Tako je sa najbržim Northwood Pentiumom
4 Intel nekako uspeo da održi dovoljan nivo konkurentnosti bar kada su u performanse
u pitanju. Naravno, sa aspekta cene AMD proizvodi su konstatno bili najbolja
kupovina.
Međutim, ono što se sada već može i otvoreno reći jeste da Intel nije bio u potpunosti
spreman za 64-bitnu ofanzivu koju je AMD spremao. Verovatno se Intel nadao da
će biti dodatnih odlaganja premijere K8 generacije procesora, ali kada se na
proleće prošle godine pojavio Opteron, a ne dugo za njim Athlon 64 i Athlon 64 FX, kompanija
Intel sa našla na pogrešnoj nozi i nije imala adekvatan odgovor. Najbolje što
su u datom momentu mogli da smisle je bilo i bukvalno fiktivno izbacivanje novog procesora u
vidu Pentium 4 Extreme Edition-a. Istina da dotični procesor nudi bolje performanse
od ostalih Pentium 4 procesora, ali njegova cena je bila ekstremno visoka a
dostupnost ekstremno mala. Kako je Northwood jezgro izrađeno u 130nm procesu
dostiglno svoj limit radnog takta, jasno je bilo da će Intel što pre morati
da pređe na novi 90nm proces proizvodnje. Naravno, ovaj prelaz nije lagan
u bilo kom smislu, tako da je Intel imao (i još uvek verovato ima) dosta problema
da kompletnu 90nm proizvdnu liniju učini rentabilnom. O konkretnim problemima
smo tokom minulih zimskih meseci mogli svi da čitamo u raznim izveštajima,
počevši od poteškoća da se dotignu željene frekvencije praćene velikim zagrevanjem
procesora. No kao što znamo, posle nekoliko odlaganja Prescott procesori su
počeli da se isporučuju tržištu i to u tri brzinske varijante: 2.8 GHZ, 3.0
GHz i 3.2 GHz. Pored njih predstavljen je i 3.4 GHz model, ali on još uvek nije
dostupan na tržištu, pa se može reći da je Intel ponovo upotrebio svoju staru metodu
predstavljanja procesora koji još nisu dostupni. Ovoga puta to je učinjeno iz
očiglednog razloga, a to je da su morali da predstave Prescott procesor koji
radi na višem taktu od prethodnog Northwooda.
Bilo kako bilo, mi smo na našem testu imali model na okruglih 3 GHz i njegove performanse
smo uporedili sa Northwood Pentium 4 procesorom na istom radnom taktu
Iako je bilo očekivano da Pentium 4 doživi još jedno “usitnjavanje” u cilju povećanja
margine za maksimalni radni takt, kao i povećanje kapaciteta L2 keš memorije
(što je dale dobre rezultate prilikom tranzicije sa Willamette na Northwood jezgro),
ispostavilo se Prescott donosi mnogo veće razlike od pukog prelaska sa 130 na
90 nanometarski proizvdni proces. Najosnovniji rezime noviteta koje Prescott
donosi možemo videti na jednom od Intelovih slajdova predstavljenih tokom poslednjeg
IDF-a.
Kao što možemo videti, unapređenja koja Intel navodi u glavnom rezimeu Prescott
jezgra jesu unapređenje NetBurst arhitekture, više keš memorije, novi proces
proizvodnje i naravno mogućnost da u budućnosti dostigne frekvencije rada između
4 i 5 GHz. Ova poslednja tvrdnja ujedno predstavlja i najzanimljivi detalj,
jer u početku nije otvoreno rečeno kako i šta je sve učinjeno da bi navedene brzine
rada bile ostvarive, već se taj detalj pojavljuje ispisan sitnim slovima u kasnijem
delu prezentacije. Da nije ovog detalja, razlike Prescotta u odnosu na
Northwood bi bile daleko manje zanimljivije, ali ovako stvarno ima šta da se
uporedi u tabelama sa rezultatima.
Metoda koju je Intel primenio prilikom premijere prvog Pentiuma 4 jeste upotreba
što dužeg instrukcionog pipeline-a čime se omogućava lakše dostizanje viših
frekvencija rada. Naravno, kao što svi znamo, ovaj pristup ima jednu veliku
manu, a to je manja efikasnost procesora po jednom kloku. Razlika u pristupu
dizajniranja procesora koje koriste AMD i Intel dovodi do slučaja gde na
primer Athlon 64 na 2 GHz nudi iste ili bolje performanse od Pentiuma 4 na 3
GHz. Sa novim Pentium 4 Prescott jezgrom Intel dodatno forsira svoju ideologiju
dizajniranja procesora, što nas opet dovodi do priče o dužini pipeline-a i njegovoj
efikasnosti.
Iako se za pipeline Pentiuma 4 od 20 etapa već može reći da je dugačak, Intel
se kod Prescotta odlučio za radikalno povećanje dužine pipelinea na, zvanično
31 etapu. Ovim potezom je efikasnost u jednom kloku dodatno smanjena, tako
da je Prescott na istom radnom taktu u većini slučajeva osetno sporiji od Northwood
jezgra. Zanimljivo je da broj etapa od 31 važi samo za integer instrukcije,
dok je pipeline za instrukcije sa pokretnim zarezom još duži, ali o ovoj dužini
za sada nema zvaničnih informacija. Međutim, produžetak pipelinea za više od
50 procenata implicira veći pad performansi, te Intel ovoga puta nije mogao
sebi da dozvoli taj luksuz da na primer 3 GHz Prescott bude sporiji od 2.4 GHz Northwooda,
pa je stoga u Prescott ugradio još dosta stvari koje bi trebalo da neutrališu negativne
efekte dugačkog pipelinea. Sve ovo nije nimalo lako realizovati, ali je jasno
da u Intelu jednostavno nisu imali bolje rešenje, naročito ne u vremenskom periodu
koji su imali na raspolaganju.
Prva stvar koja se u ovakvoj situaciji čini jeste povećanje efikasnosti i preciznosti
branch prediction jedinice koja se brine da dugački pipeline stalno bude pun
te da ne dolazi do gubljenja vremena pri pogrešnim grananjima. Tako je kod Prescotta
primenjen indirektan sistem branch prediction jedinice koja nam je poznata iz
Banias Pentium M jezgra, koji smanjuje procenat grešaka pri predviđanju grananja
za oko 50%. Ovaj sistem umesto standardnog načina predviđanja instrukcija i
upućivanja procesora na mesto gde bi grananje trebalo da se izvrši, indirektan
sistem upućuju procesora direktno na instrukciju koja treba da bude izvršena
u predviđenom grananju. Ovaj sistem donosi navedenu prednost u većini situacija,
dok je za one koje imaju problema, Intel ugradio specijalne algoritme koje
ove probleme efikasno prevazilazi. Sama činjenica da je Intel upotrebio ovaj
sistem iz Banias Pentiuma M je jedan od dokaza da je u ovaj procesor uloženo
mnogo vremena i truda, te da se može kvalifikovati kao jedan od najbolje dizajniranih
Intelovih procesora. Sledeća stvar koja je unapređena jeste scheduler, tj. planer
instrukcija koji se brine da maksimalno zaposli sve ALU jedinice u procesoru.
Pored toga, iako broj ALU jedinica nije povećan njima je dodata jedna važna
mogućnost. Kod svih Pentium 4 procesora do Prescotta, funkciju množenja celih
brojeva (integer multiplier) obavljala je FPU jedinica koja je dobijeni rezultat
vraćala ALU jedinicama. Sada Prescott poseduje posebnu jedinicu koja obavlja
ovaj posao, čime se dobija na brzini i oslobađa FPU za svoje poslove. Kako je
integer multiplier instrukcija veoma česta u svim mogućim programima, jasno
je da je ovo značajno unapređenje arhitekture. Na žalost, Intel se nije odlučio
da primeni i drugu standardnu metodu za povećanje preciznosti branch prediction
jedinica, a to je jednostavno povećanje kapciteta memorije koju ove jedinice
koriste za smeštanje podataka o prošlim ispravnim i pogrešnim grananjima.
Sledeća stavka na listi unapređenja Prescotta je uvećanje L2 keša sa 512 KB
na celih 1024 KB, što je najlakši način za konstantno punjenje dugačkog pipelinea,
uz određeno povećanje performansi koje veći keš standardno donosi. Pored toga,
Intel je duplirao veličinu i L1 Data keša dok je L1 keš za instrukcije ostao
istog kapaciteta kao i kod Northwood jezgra. Međutim, negativna strana jeste
u rastu latency (kašnjenja) što donekle neutrališe dobitak koji donosi veći
kapaciteta L1 keša. Na žalost, isto važi i za L2 keš što znači da i on ima povećano
kašnjenje u odnosu na L2 keš kod Northwooda, ali o tome nešto kasnije, kada
budemo prešli na analizu rezultata testova.
Poslednji novitet na listi mogućnosti Prescotta je set instrukcija pod nazivom
SSE3 koji objedinjuje ukupno 13 novih instrukcija. One su prvenstveno posvećene
ubrzanju kompleksnih aritmetičkih proračuna, kao što su video kompresija ili
operacije vezane za 3D grafiku. Naravno, da bi one bile upotrebljene softver
mora biti optimizovan za njihovo korišćenje. Intel je posebno ponosan na instrukciju
po nazivom “LDDQU” koja bi trebala da donese značajno ubrzanje DivX kompresije.
Ovde imamo jedan interesantan momenat koji ćemo takođe detaljnije objasniti
kasnije. Ipak, kako nam je svim poznato koliko je vremena bilo potrebno da SSE2
optimizacija zaživi u većini programa, teško možemo u skorije vreme očekivati
veću količinu programa koji će upotrebljavati ove instrukcije.
UPOREDNE SPECIFIKACIJE PENTIUM 4 PROCESORA
Ime jezgra
Willamette
Northwood
Northwood EE
Prescott
Proizvodni proces
180 nm
130 nm
130 nm
90 nm
Velična jezgra
217 mm^2
131 mm^2
237 mm^2
112 mm^2
Broj metalnih slojeva
6
6
6
7
Broj tranzistora
42 miliona
55 miliona
178 miliona
125 miliona
Radi napon
1.750 V
1.50 V
1.50 V
1.385 V
Radni taktovi
1.3 do 2.0 GHz
1.6 do 3.4GHz
3.2 do 3.4GHz
2.8 do 4GHz+
L1 Instruction keš
12 K
12 K
12 K
12 K
L1 Data keš
8 KB
8 KB
8 KB
16 KB
L2 keš
256 KB
512 KB
512 KB
1 MB
L3 keš
nema
nema
2MB
nema
TEST KONFIGURACIJA
CPU
– Intel Pentium 4 Northwood & Prescott
3.0 GHz
Matične ploče
– Asus P4C800 Deluxe
Memorija
– 2x Corsair PC3500 256MB
Hard disk
– Maxtor DiamondMax+8 40GB
Graficka karta
– GeForce FX5900 XT
Operativni sistem
– Windows XP Pro SP1
Drajveri
– ForceWare 53.03
Kao i uvek, krećemo od sintetike u dobro nam poznatim programima. Prvo što
je očigledno jeste da SiSoft Sandra 2004 u svakom svom segmentu daje prednost
Northwood jezgru. Čak možemo reći da daje i dosta veliku prednost, ukazujući
da se u testovima ovakvog tipa duži pipeline jasno oseća. Naravno, kada svetu
bude dostupna nova verzija ovog popularnog programa, vrlo je moguće da će testovi
biti opzimizovani da i na Prescottu daju bolje rezultate.
Međutim, ono što je mnogo zanimljivije, jeste brzina rada L1 i L2 keš memorije
kod Prescott jezgra. Kao što smo već rekli, Prescott poseduje dvostruko više L2
keš memorije od Northwood jezgra, ali kao što možemo videti iz sledećih testova, keš
memorija kod novog jezgra je takođe i osetno sporija, odnosno ima veći latency.
Na žalost, aktulena verzija Sience Marka nije bila u stanju da izmeri brzinu
transfera koje ostvaruje keš memorija kod Prescotta, ali je uspela da zabeleži
i izmeri znatno uvećan latency. Sa leve strane su rezultati ostvareni na Prescott
procesoru, dok se sa desne strane nalazi slika sa rezultatima Northwood Pentiuma
4. Kao što možete videti, broj ciklusa je kod Prescott-a u većini slučajeva
duplo veći što na kraju rezultuje sporijim odzivom kompletne keš memorije. Imajući
ovo u vidu, jasno zbog čega je Intel morao da implementira razna unapređenja
o kojima smo nešto ranije govorili.
Kako smo nedavno iz test procedure izbacili PCMark 2002, nova verzija ovog
FutureMark-ovog benchmark programa nam je stigla na vrata. Rezultate koje ovaj
program pruža su dosta bolji kada je u pitanju realnost ocene performansi, ali
i pored vidnog poboljšanja PCMark 04 ume da izvede malo čudne zaključke.
U totalnom skoru, PCMark 2004 daje prednost Prescott procesoru, što je zaključak
koji nam i nije baš najjasniji kada pogledamo sledeću tabelu.
Ovde možemo videti da su na testu 3D grafike performanse gotovo identične, dok
je na CPU testu Prescott bio nešto brži. Međutim, u testu brzine memorije Northwood
je bio taj koji je ostvario prednost, i to mnogo veću nego što je to slučaj
u CPU testu. Kako je onda PCMark 2004 u finalnom skoru izvukao zaključak da je Prescott
brži, to samo on zna. U stvari, verovatno znaju i ljudi iz FutureMarka, ali
nećemo sad o tome.
Dva veoma popularna enginea i dve isto tako popularne igre su dale drugačije
ocene performansi novog Pentium 4 procesora. Novi UT2004 je bio primetno naklonjen
Northwoodu, dok je dobri stari Quake3 bolje radio na novom Prescott-u. Kapacitet
L2 keš memorije je očigledno taj faktor koji povoljno utiče na performanse u
ovom engineu, dok sam latency očigledno nije bitan.
Nakon testova u igrama, nastavljamo sa daljim testiranjem gaming i 3D performansi.
Kao i u slučaju prethodnih testova, i ovde su se mišljenja popularnih 3D test
programa primetno razlikovala.
Kao što možete videti, stari 3DMark 2001SE je pokazao dobru razliku između
performansi Northwood i Prescott jezgra na istom taktu, dajući prednost starijem
članu Pentium 4 familije. Sa druge strane, 3DMark-u 2003 se očigledno svidelo
prisustvo veće količine L2 keš memorije, dok ga povećani latrncy i dužina pipeline-a
nije mnogo uznemirila. Ovde je sasvim jasno da kvaliteno pisan sofverski code
u saradnji sa unapređenim branch prediction jedinicama uspeva da neutrališe
sve nus pojave dugačkog pipeline-a.
AquaMark 2003 očigledno nije aplikacija koja je naklonjena Prescottu, tako
da smo i ovde zabeležili sasvim primetnu prednost starog Northwood jezgra.
Sada prelazimo na skupinu test programa koji se mogu svrstati u red ozbiljnog
softvera i realnih aplikacija koje zajedno daju veoma realnu sliku performasni
koje krajnji korisnik u radu može da očekuje.
Suva matematika očigledno nije jača strana Prescotta, jer su ovi programi osetljivi
na efikanost po kloku, odnosno na dužinu pipeline-a. Zbog prirode njihovog posla,
do grešaka u proračunu grananja često dolazi tako da nikakva branch
predicton jedinica ne može da bude toliko efikasna da u potpunosti eliminiše
ovaj problem, pa je stoga jasno zašto je Prescott sporiji.
Ovde dolazimo do još jedne zanimljive priče, jer smo testirajući performanse
DivX kompresije imali priliku da vidimo interesantne stvari koje mogu čoveka
naterati na malo veće razmišljanje o temi zvanoj “optimizacija”. Naime,
kada smo koristili stari DivX 5.02 kodek Northwood je dosta brži od Prescotta
što je rezultat koji smo, mora se priznati, i očekivali. Međutim, kako se u
setu SSE3 instrukcija nalazi fukcija koja bi trebalo da ubrza DivX kompresiju
i koja je podržana u 5.1.1 veziji kodeka, uradili smo još jedan test brzine
sa ovim kodekom. Što se tiče Prescotta, on je za nekih pola frejma u sekundi
bio brži sa 5.1.1 kodekom. Međutim, Northwood je bio sporiji tačno onoliko koliko
je bio brži sa 5.02 kodekom. Iako bi ste mogli da me zovete teoretičarem zavere,
smatramda je ovo u najmanju ruku pomalo čudno, odnosno da je rad DivX 5.1.1 kodeka namerno usporen kako bi Prescott imao manji zaostatak u odnosu na starijeg brata. No, kako
nije bilo dovoljno vremena da celu meteriju 150% ispitamo, ne može se sa apsolutnom sigurnošću tvrditi tako nešto, ali velika sumnja definitivno stoji.
Na kraju, stižemo da kompletne ZD baterije testova u koje smo uključili i
nove i stare verzije koje posedujemo. Čisto zbog kontinuiteta sa prethodnim
testovima, ukoliko neko od posetilaca želi da poredi rezultate sa nekim od tih ranijih testova.
Odavno je poznato da kod business aplikacija kapacitet L2 keš memorije mnogo
znači, tako da je sasvim logično da procesor sa duplo više ove vrste memorije u ovim
testovima ostvari bolji rezultat.
Sa druge strane, Content Creation testovi u kojima je bila očekivana prednost
Northwood jezgra, jednostavno nije dobnela takve rezultate. Prescott je na neki način
uspeo da bude brži, naročito u starom 2002 testu. No, na kraju rezultata testova
imamo još par kontraverznih stvari da dodamo. Naime, kako smo imali prilike
da testiramo i uporedimo 2.8 GHz primerke Prescotta i Northwooda, nekako nam
se čini da odnos performansi između dva procesora na istoj freknvecniji nije
baš u potpunosti isti. Na brzini od 2.8 GHz Prescott je u nekim testovima beležio veći
zaostatak nego što je to slučaj sa 3.0 GHz Prescottom u odnosu na 3.0 GHz Northwood.
Moguće je da su sporiji procesori u procesu proizvodnje izdvojeni kao takvi jer možda
imaju još neku manu koja utiče na performanse ? Naravno, nikakvu zvaničnu informaciju
nemamo, ali nam bar ostaje da vam prenesemo lične utiske sa testiranja.
Kao što možemo primetiti, Intel je kod Prescott jezgra primenio dosta radikalne
zahvate kao bi mu omogućio rast radnog takta koji bi bio u skladu sa kampanjom
“što više megaherca to bolje”. Međutim, ono što se može osetiti nakon analize
detalja u vezi arhitekture, jeste utisak da je Intel Pentium 4 NetBurst arhitekturu
doveo do granica svojih mogućnost, što bi moglo da znači da će Prescott biti
poslednje Pentium 4 jezgro. Pored svih navedenih intervencija na arhitekturi
koje su tu zarad povećanja radnog takta, rast broja tranzistora sa 55 kod Northwooda
na čak 125 miliona kod Prescotta, te veliko zagrevanje, su samo prateći negativni
efekti. Po zvaničnim podacima, Prescott jezgro ima disipaciju toplote u rasponu
od 89 (2.8 GHz model) do čak 103 W (3.4 GHz model) što je ogromna količina
zagrevanja, koje ni 90 nanometarski proces nije uspeo u dovoljnoj meri da ublaži.
Na našem testu procesor smo hladili standardnim kulerom i pri tome se njegova
temperatura na nominalnih 3.0 GHz kretala u rasponu od 55 do 60 stepeni, što
je na granicama prihvatljivog. Zbog toga je gotovo nemoguće koristi tihe kulere
sa malim brojem obrataja, jer jednostavno neće moći dovoljno dobro da hlade
procesor, koji će u tom slučaju polagano preći u throttle na niže brzine. Kada
je overkloking u pitanju, naravno da smo ga probali. Maksimalni takt koji smo
uspeli da ostvarimo je 3.6 GHz pri naponu od 1.525 V. Sve preko toga je rezultovalo
throttle-ovanjem ili na kraju nestabilnim radom. Međutim, kada smo hteli da vidimo
koliko se procesor zagreva na ovim radnim taktovima, moramo to priznati, zabrinulli smo se kako
će to sve raditi u letnjim vrućinama. Dostignutih 75 stepeni pri skoro maksimalnom
naprezanju procesora je zaista veliki rezultat, naročito ako se u obzir uzme
staro sujeverje o “hladnoći” Pentium 4 procesora.
Finalna ocena Prescott jezgra generalno ne može imati baš povoljnu notu, što
je činjenica koje je svestan i sam Intel. Zbog toga je cena Prescott i Northwood
modela na istom taktu skoro identična, tako da je potpuno jasno da se ne radi o ničem
specijalno novom kada je u pitanju krajnji korisnik. Ovom cenovnom politikom
Intel želi da stimuliše korisnike da kupe Prescotta umesto Northwooda, a kako
novi procesor u većini slučajeva pruža korektne performanse, ovo i nije tako
loš potez za krajnjeg kupca. Naravno, ako ovome dodamo zagrevanje i potrebu za
bučnijim kulerom, sasvim je moguće de će se većina ljubitelja Pentium 4 procesora
i dalje odlučivati za Northwood dok ih god bude bilo na tržištu.. Što se nas
tiče, ne možemo preporučiti nabavku Prescott procesora, barem ne do momenta pojave
eventualnog novog steppinga koji će biti još malo unapredjen te smanjiti zagrevanje
Prescott jezgra. U svakom slučaju, sa novim verzijama BIOS-a gotovo sve i865 i
i875 ploče bi trebalo da bez problema rade sa Prescott procesorima, tako da
će korisnici ukoliko to budu želeli moći da bez problema pređu na 4 GHz i brže
modele kada se oni budu pojavili na tržištu.
Procesor za potrebe testa ustupila firma “Sintex”, Subotica