Aleksandar Božović Nakon Pentium 4 Willamette jezgra koje je prilicno razocaralo po pitanju performansi
u poredjenju sa AMD Athlon platformom, Intel je odlucio da dodatno ubrza i unapredi
postojecu generaciju Pentium 4 procesora. Rezultat takvih nastojanja nalazi se
ispred nas u obliku Intel Pentium 4 procesora sa Northwood jezgrom, deklarisane
radne brzine na 2.2GHz. Ucinjena unapredjenja ne zadiru u srz arhitekture Pentium
4 procesora. Glavna poboljsanja su izvrsena prelaskom na 0.13 mikronsku tehnologiju
proizvodnje i povecanjem kolicine drugostepenog (L2) kesa sa 256KB (Willamette)
na 512KB (Northwood).
Intel je proizvodu koji je namenjen vrhu ponude kada su u pitanju PC racunari
implementirao brojne inovacije koje se kriju u tehnoloski bombastim terminima.
Arhitektura P4 procesora se oznacava terminom “Intel Net Burst Micro-architecture”.
Net Burst Micro-architecture podrazumeva: Hyper Pipelined Technology, 400 MHz
System Bus, Execution Trace Cache, Rapid Execution Engine, Advanced Transfer Cache,
Advanced Dynamic Execution, Enhanced Floating-point and Multi-media Unit, and
Streaming SIMD Extensions 2 (SSE2). Krenimo redom: – Hyper-pipelined technology oznacava poboljsanja ucinjena u pravcu povecanja
duzine “pipeline-a”. Pipeline je proces u kome se izvrsenje jedne slozene instrukcije
deli na vise prostih mikro operacija. P4 procesori poseduju 20-o segmentni pipeline
u odnosu na P3 Coppermine cija je “duzina” pipeline-a iznosila 10 segmenata. Svaki
“pipe” segment izvrsava uprosceni zadatak (mikro operaciju) i mora da ga izvrsi
pre nego sto sledeci segment “pipe”, otpocne sa izvrsavanjem narednog zadatka.
Zbog vece duzine pipeline-a i pojednostavljenja instrukcija na 20 nivoa, obavljanje
prostih zadataka se odvija vecom brzinom nego u slucaju PIII Coppermine procesora.
Primena ove tehnologije je direktno uslovila potrebu za povecanjem radne frekvencije
Pentium 4 procesora. To je sa druge strane smanjilo broj “pipeline”-ova i broj
izvrsenih instrukcija u ciklusu. Ovo je podatak koji ukazuje na suprotan pristup
u poredjenju sa tehnologijom primenjenom kod AMD Athlon procesora. U slucaju Athlon
procesora islo se na veci broj izvrsenih instrukcija u ciklusu, a sto je sa druge
strane uslovilo “kraci” pipeline i nizu radnu frekvenciju. Poenta je u tome da
se prilikom vrednovanja snage centralnog procesora ne rukovodite samo brzinom
radne frekvencije vec i brojem izvrsenih instrukcija u ciklusu. Visoka radna frekvencija
Pentium 4 procesora ne pokazuje realno stanje stvari i nadmoc koja bi bila jednaka
nominalnoj razlici u radnoj frekvenciji izmedju Pentium 4 i AMD Athlon procesora.
Snaga procesora direktno zavisi: od broja instrukcija koje procesor obavi u ciklusu
(IPC) i ucestanosti koja oznacava broj ciklusa u vremenskoj jedinici, a iskazuje
se frekvencijom procesora. – Performanse procesora = IPC * frekvencija Ova tvrdnja se dokazuje u praksi gde AMD procesori koji rade na 700MHz manjoj
frekvenciji postizu u pojedinim testovima bolje rezultate od Pentium 4 procesora
na vecoj radnoj frekvenciji. Takodje se vidi da Intel daleko vise eksperimentise
sa CISC procesorskom arhitekturom dok AMD sa druge strane mnogo ociglednije primenjuje
RISC arhitekturu. – Advanced Dynamic Execution je tehnika koja poboljsava mogucnosti efikasnog
manipulisanja podacima od strane centralnog procesora. U slucaju Pentium 4 procesora
ova tehnika poboljsava efikasnost koriscenja dugih “pipeline”-ova. To vrsi na
taj nacin sto se jedinice za izvrsenje instrukcija cuvaju od izvrsenja nepotrebnih
instrukcija. Ova izuzetno slozena tehnika podrazumeva uposljavanje “enhanced branch
prediction” algoritma koji smanjuje broj pogresno predvidjenih instrukcija za
33% u odnosu na prethodnu generaciju PIII Coppermine procesora. – Quad Pumping Bus – 400 MHz System Bus, nominalni takt na sistemskoj magistrali
koji iznosi 100MHz je ucetvorostrucen i iznosi 400MHz. Time je znatno povecan
protok podataka na sistemskoj magistrali i iznosi max. 3,2GB sto je daleko vise
u odnosu na 1,06GB koliko je bio maximalni transfer PIII Coppermine procesora
koji je radio na brzini sistemske magistrale od 133MHz. – Level 1 Execution Trace Cache, pored 8 KB L1 data kesa, P4 procesori
poseduju dodatnu Execution Trace Cache memoriju u kojoj se mogu cuvati do 12 K
dekodiranih mikro operacija koje se koriste tokom izvrsenja programa. Na taj nacin
se utice na povecanje performansi jer se ne trosi dodatno vreme za dekodiranje
slozenih instrukcija. Dakle, ukoliko je pogresna mikro operacija upucena na izvrsenje,
“pipe” ne treba da ceka ponovno dekodiranje instrukcije vec na raspolaganju ima
veliki broj mikro operacija raspolozivih u Execution Trace Cache memoriji. – Rapid Execution Engine, dve Arithmetic Logic Units (ALUs) jedinice rade
na dvostruko vecoj frekvenciji u odnosu na nominalnu radnu frekvenciju procesora.
Ovim se omogucava izvrsenje dve osnovne nedeljive instrukcije (Add, Subtract,
Logical AND, Logical OR) u jednom ciklusu. Ukoliko Pentium 4 radi na frekvenciji
od 1,5GHz Rapid Execution Engine radi na 3GHz. Uvodjenje ove tehnike ponovno cilja
prevazilazenje nedostataka dugih pipeline-ova i pogresno predvidjenih podataka.
U slucaju rada sa nedeljivim instrukcijama povecava se rizik od pogresno predvidjenih
podataka. U takvim situacijama brzina rada ALU jedinica je od kljucnog znacaja
za obezbedjenje performansi procesora. – 512KB Level 2 Advanced Transfer Cache, Pentium 4 Northwood core poseduje
512 KB drugostepenog kesa koji radi na punoj procesorskoj brzini. Sirina magistrale
putem koje procesorsko jezgro komunicira sa L2 kes memorijom izosi 256 bita sto
je tacno cetri puta vise nego u AMD Athlon slucaju. Kada tome dodate i cinjenicu
da je kes sposoban da manipulise podatakom u svakom ciklusu, dolazite do impozantne
cifre o maksimalnom transferu podataka od 70,4GB/s (P4 na 2.2GHz). – Data Prefetch Logic, kao i AMD Athlon serija procesora i P4 poseduje
jedinicu koja vrsi predvidjanje potrebnih podataka i vrsi njihovo ucitavanje u
L2 kes memoriju pre nego sto procesorsko jezgro uputi zahtev za ucitavanje istog
podatka iz sistemske memorije. Kada procesor uputi zahtev za doticnim podatkom
on je vec spreman u L2 kesu i velikom brzinom se ucitava na dalju obradu. Na taj
nacin se znacajno povecava transfer podataka. – Enhanced Floating-point and Multi-media Unit, P4 poseduje unapredjenu
varijantu 128-bitnog matematickog koprocesora koji je unapredjen dodatnim registrima
i instrukcijama za ubrzanje prilikom izvrsavanja intezivnih matematickih i multimedijalnih
aplikacija. – Internet Streaming SIMD Extensions 2 (SSE2), specijalitet Intela jeste
podrska odredjenim instrukcijama na nivou procesorskog jezgra koje ubrzavaju izvrsenje
optimizovanih aplikacija. U slucaju Pentium 4 procesora nailazimo na dodatne 144
instrukcije. Unapred je definisan set instrukcija kojima je omoguceno da prilikom
izvrsenja koriste vise podataka istovremeno. Na ovaj nacin je znacajno ubrzano
izvrsenje zahtevnih aplikacija ali pod uslovom da one poseduju podrsku za SSE2
set instrukcija. Danas je raspolozivo veoma malo aplikacija sa SSE2 podrskom,
sa tendencijom da se njihov broj poveca u bliskoj buducnosti. Tek tada cemo biti
u mogucnosti da sagledamo poptuni potencijal Pentium 4 procesora. Na
osnovu ovih podataka mozete videti da su Pentium 4 Willamette i Northwood procesori
sustinski identicni. Unapredjenja ipak postoje i ona su ucinjena prelaskom na
noviju i savrseniju tehnologiju proizvodnje u 0.13 mikrona. To znaci da se iz
iste povrsine silicijumskog “kolaca” moze napraviti vise Northwood procesorsa
nego sto je slucaj sa Willamete jezgrom. Osim manjih troskova u neposrednoj proizvodnji
prelazak na 0.13 mikronsku tehnologiju je smanjio potrosnju energije. P4 Northwood
procesor radi na naponu od 1.5V i dozvoljeno je maksimalno povecanje napona na
1.75V koliko je iznosio nominalni radni napon Willamete jezgra. Sve to govori
u prilog cinjenici da se Northwood jezgro daleko manje greje od svog starijeg
brata. Tokom rada P4 2.2GHz je imao skoro identicnu radnu temperaturu kao i Willamette
na 1.5GHz. Rezultat koji je svakako vredan paznje posto je ovim stvorena pretpostavka
za postizanje jos vecih vrednosti radne frekvencije procesora. Takodje, prelaskom
na 0.13 mikronski proces proizvodnje, Intel se konacno odlucio za doslednu implementaciju
bakarnih interkonektora na svim P4 Northwood procesorima. Sledece poboljsanje
je usledilo povecanjem kolicine drugostepenog kesa. 512 KB L2 kesa je automatski
znacio i veci broj tranzistora tako da se Northwood jezgro moze pohvaliti sa 55
miliona trazistora. I za kraj jos jedna napomena. Trenutno se Pentium 4 Northwood
procesori mogu sresti na dve radne frekvencije: 2.2GHz i 2.0 GHz. Istovremeno
Willamette jezgro se izradjuje u rasponu radnih frekvencija od 1.4-2.0GHz. Razlika
u 2.0GHz verzijama izmedju Willamette i Northwood jezgra je u tome sto Northwood
procesor ima obaveznu slovnu oznaku “A” tj. Pentium 4 2.0A GHz. Svi podaci koje smo do sada izneli deluju dosta impresivno, medjutim imajuci u
vidu performanse P4 Willamette jezgra, ocekivanja sa Northwood jezgrom su bila
obojena velikom dozom uzdrzanosti. Prvi susret sa novim Intelovim procesorom je
bio pomalo iznenadjujuci. Nakon par telefonskih razgovora sa ovlascenim distributerom
Intel proizvoda, konacno sam pozvan da preuzmem dugo iscekivani P4 Notrhwood procesor.
Nakon prijatnog razgovora i upoznavanja sa buducim planovima i podrsci za dalju
saradnju, dosao je trenutak za preuzimanje procesora. Silno sam se iznenadio kada
se umesto ocekivane naradzasto plave Intel box kutije, pojavio ogromni transportni
kofer-kontejner.
Unutra me je cekala kompletno konfigurisana masina bazirana na Intel D850MV maticnoj
ploci, 256 Kingston RDRAM memorije, Creative GeForce2 Pro video kartica, 30GB
IBM GXP 75, Intel 100Mb Ethernet, Hitachi DVD i sve to upakovano u vrlo kvalitetno
kuciste sa “Delta” napajanjem. Racunar je sklopljen od strane samog Intela tacnije
receno Intel DEMO Depot-a sto je za mene bilo pravo iznenadjenje. Po prvi put sam imao prilike da radim i probam racunar koji predstavlja Intel-ovu
viziju radne stanice visokih performansi. Kao sto ste videli nikakvih ekstremnih
resenja po pitanju grafickog i HDD podsistema nije bilo. Glavni akcenat je na
izuzetno mocnom centralnom procesoru i odlicnoj maticnoj ploci koja podrzava trenutno
najbrzi memorijski standard. Pravi primerak perfekcije u konfigurisanju sistema.
Ipak da bi rezultati bili potpuno uporedivi, testiranje smo izvrsili i na ASUS
P4B266 ploci sa podrskom za DDR memorijski standard kako bi ujedno utvrdili i
overkloking domete Northwood novajlije. Uzbudjenje je dostiglo vrhunac kada je
na poklopcu hladnjaka koji standardno prekriva povrsinu procesorskog jezgra P4
procesora, uocavam natpis “Intel Confidential”. Nakon konfigurisanja sistema i
prvog ukljucivanja usledila je instalacija operativnog sistema. Proces se odvija
lakocom i brzinom uobicajenom za P4 procesore. Usledila je instalacija drajvera
i benchmarking programa. Sve je proteklo u najboljem redu bez bilo kakvih uocljivih
problema. Dakle stabilnost je apsolutno na nivou koji standardno uzivaju Intel
bazirane platforme. Sledi citava “baterija” testova. Najveci problem tokom testiranja
bio je nabaviti sto brzi AMD XP procesor pomocu koga bi dobili znacajno uporedljivije
rezultate. Najbrze sto smo mogli da pronadjemo bio je AMD Athlon XP 1800+. Mnogi
ce sa pravom reci da je nemoguce porediti ova dva procesora sto je u sustini i
istina. Ipak, to je bilo dovoljno da se stekne uvid i postave realne paralele
izmedju dva “najljuca” rivala kada je u pitanju PC platforma. Prvi utisci u radu
Intel P4 Northwood procesora odaju sliku procesora koji raspolaze velikom dozom
sirove snage koja je posledica izuzetno visoke radne frekvencije od 2.2GHz. Skakanje
misem od ikonice do ikonice i njihovo aktiviranje rezultovalo je momentalnim startom
aplikacije. Sve se desavalo strahovito brzo. Kao nikada do sada bilo ocigledno
da je IDE podsistem najveca kocnica i usko grlo na ovako brzim sistemima. Konstantno
krckutanje koje je je dolazilo iz naseg test etalon IBM GXP75 diska je definitivno
pokazalo da je vreme za uvodjenje novog standarda kada su u pitanju hard diskovi.
Licno bih voleo da Serial ATA sto pre “pogodi” trziste ali samo da bude prvi korak
u pogledu temeljnog resenja ovog vec odavno identifikovanog uskog grla personalnih
racunara.
Pogledajmo kako je bio konfigurisan test sistem i dobijene brzinske rezultate… Test sistem – Windows Millenium
CPU
– Intel P4 Northwood 2.2GHz – Intel P4 Willamete 2.0GHz – AMD Athlon XP 1800+
Maticne ploce
– ASUS P4B266 Intel i845 – ASUS A7V266-E
Memorija
– 256MB Crucial DDR-266
Video-karta
– ASUS V7700 Titanum Pure 32MB
Hard-disk
– HDD 15GB IBM DTLA UATA 100
Power Supply
– 350W ENERMAX EG365P-VE
ZD Winbench 99 HDD
U brzini komunikacije sa hard diskovima Intel je ocekivano briljirao i postigao
bolje rezultate. Dodatna kolicina L2 kesa je pomogla Northwood P4 procesoru da
ostvari tesnu razliku i postigne najbolji rezultat na testu. ZD Winbench 99 VGA
U 2D grafickim testovima Athlon XP je naprosto zbrisao Intel procesore. Rezultati
najbolje govore o kakvoj se razlici radi! Business Winstone 2001
Sa velikim nestrpljenjem sam krenuo u seriju Winstone testova zeleci da vidim
hoce li se ponoviti situacija iz prethodne grupe benchmarking testova. Ovoga puta
ipak nije bilo iznenadjenja. P4 Northwood glatko osvaja pobedu. Neposteno bi bilo
ne pohvaliti rezultat Athlon XP procesora koji je na daleko manjem radnom taktu
ostvario izuzetan rezultat. CC Winstone 2002
Najnoviji ZD benchmarking jos jednom ukazuje na cinjenicu da je Northwood P4 najbrzi
u kategoriji zahtevnih aplikacija. SiSoft Sandra Memory test
Ovde dileme nije bilo. P4 je nesumnjivi pobednik po pitanju brzine komunikacije
sa sistemskom i memorijskom magistralom. “Quad Pumped bus” komunikacioni protokol
koji ucetvorustrucuje nominalni radni takt se pokazao apsolutno nadmocnim u odnosu
na AMD konkurenciju. Ovo je definitivno najveci problem a ujedno i rezerva gde
bi AMD procesori mogli da naprave znacajniji iskorak kada su u pitanju performanse
u kombinaciji sa brzim memorijskim standardima. SiSoft Sandra CPU Multi-Media Benchmark
Konacno jedna aplikacija koja koristi i vrednuje prisustvo SSE2 instrukcija. Postavlja
se i opravdana sumnja u kojoj je meri podrzan unapred definisani set instrukcija
koje sa sobom donosi P4 generacija procesora, posto su ostvareni rezultati prilicno
porazavajuci po P4 procesore. Sandra CPU Benchmark
Jos jedan zestok obracun u kome Athlon XP odnosi pobedu u delu testova koji vrednuju
brzinu izvrsavanja nedeljivih instrukcija. U drugom delu testova koji vrednuju
brzinu rada matematickog koprocesora P4 odnosi pobedu zahvaljujuci SSE2 optimizaciji.
U slucaju izostanka podrske SSE2 instrukcijama od strane software-a koji se izvrsava,
P4 deluje slabasno i bledo! 3D Mark 2001
AMD je jos jednm ocitao pravu lekciju Pentium 4 procesorima. Uprkos cinjenici
da brze radi na sistemskoj i memorijskoj magistrali P4 je podbacio bas u benchmarkingu
koji intezivno radi sa memorijom, procesorom i grafickim podsistemom. Ocigledno
da Intel i nije preterano brz na AGP magistrali i da su AMD i VIA majstorski odradili
taj deo posla. To je svakako problem efikasnosti chipseta i sistemskog kontrolera
a nikako samog procesora. Jer je u istim uslovima kombinacija P4 Northwood jezgra
i SiS 645 chipset-a postigla bolje rezultate od AMD Athlon – VIA platforme za
2%! Photoshop Bear resize test
Izuzetno brza komunikacija sa sistemskom memorijom podrzana odlicnim radom IDE
podsistema je donela jos jednu pobedu P4 Northwood platformi. Doprinos povecanja
L2 kes memorije je ocigledan i svakako se najvise oseca u realnim situacijama. Bryce 4.0 Bench scene rendering
Test u kome se matematicko – koprocesorska jednica maximalno opterecuje. AMD Atholn
XP procesor je dominirao zahvaljujuci cinjenici da Bryce 4.0 verzija programa
ne poseduje podrsku za P4 SSE2 set instrukcija. Audio Catalyst MP3 encoding
Test se sastoji u MP3 konverziji muzicke numere u trajanju od 5min i 30 sec. AMD
Athlon XP je uknjizio jos jednu “cistu” pobedu. Quake 3
Omiljeni test P4 procesora koji su jos jednom potvrdili svoju prednostu u ovom
tipu aplikacija. Ipak i AMD je imao upecatljiv nastup, prateci Northwood jezgro
na vrlo malom rastojanju, pri cemu se prednost P4 novajlije, ostvarena u nizim
rezolucijama, potpuno topi u rezoluciji 1024X768 pixela i visim. Zakljucak Da bismo zaista izveli sto realnije zakljucke Intel P4 Northwood procesor smo
testirali i sa RAMBUS memorijskom platformom. Razlika izmedju DDR i RDRAM platforme
su bile beznacajno male. Cak je u vecini testova DDR platforma pokazala prednost
u radu sa Northwood jezgrom. Ovakvoj situaciji svakako doprinosi i cinjenica da
je kao etalon RDRAM platforma posluzila Intel D850MV maticna ploca koja ne dozvoljava
dodatnu optimizaciju tj. ubrzanje memorijskih parametara. No bez obzira na ovu
cinjenicu evidentno je da je DDR platforma po pitanju performansi sasvim dorasla
RDRAM platformi. Sitacija sa sledecom evolucijom DDR memorijskog standarda (DDR-333)
ce jos vise izostriti performanse Intel P4 procesora, tako da je moj licni stav
da ce RDRAM memorija polako nestati sa pozornice PC racunara. Sto se tice overkloking sposobnosti P4 Northwood procesora i primerka koji smo
imali prilike da testiramo, one su u granicama ocekivanih imajuci u vidu nominalni
izuzetno visoki radni takt procesora. Overkloking pomocu menjanja vrednosti mnozioca
radnog takta nije podrzan. Jedina mogucnost je i dalje podizanje brzine sistemske
magistrale. Koristeci standardne metode hladjenja tj. kuler koji se isporucuje
u Intel “box” pakovanju, postigli smo najvise FSB=115MHz (2.53GHz). Pri toj brzini
procesor je bio apsolutno stabilan, ali je zahtevao povecanje napona od 0.1V (1.6V)
da bi ostvario zeljeni nivo stabilnosti u radu. Pokusaj podizanja sistemske magistrale
na 120MHz (2.64GHz) je zahtevao dodatno povecanje napona na 1.7V. Sistem se probudio
i podigao Windows ME operativni sistem. Medutim, pokretanje bilo kakve aplikacije
je rezultovalo prijavljivanjem greske onemogucivsi dalji rad. Verovatno bi situacija
bila mnogo bolja da smo napon procesorskog jezgra mogli povecati na max. dozvoljenih
1.75V ali ASUS P4B266 to trenutno ne dozvoljava fiksirajuci vrednost od 1.7V kao
maksimalno dozovljenu granicu za P4 procesore sa Northwood jezgrom. Ipak treba
priznati da je 15% u dobitku radnog takta sasvim pristojan rezultat koji je doneo
realnih 4,5% ubrzanja u Quake 3 DEMO testu. Mnogi ce nakon svih utisaka i rezultata reci da je Intel jos jednom podbacio.
Sta bi se desilo da smo kojim slucajem imali Athlon XP 2000+ ili XP 2200+. Ipak,
bez svake sumnje P4 je “Top Tech” proizvod koji je pre svega izraz drugacijeg
pristupa u projektovanju i primeni procesorske arhitekture. Ogroman broj aplikacija
koje trenutno koristimo ne podrzavaju SSE2 instrukcije. Jednom kada taj paket
instrukcija postane standardno podrzan od sirokog kruga proizvodjaca softvera,
tek tada mozemo realno porediti i utvrditi stvarnu razliku u snazi dva trenutno
najjaca procesora za PC platformu. Zahvaljujemo se firmama: – ASBIS (Intel P4
Northwood, referentni Intel PC) – MD&Profy (AMD Athlon
XP platforma, ASUS P4B266) na ustupljenom hardware-u za potrebe testiranja.