Miloš Stamenković
AMD Phenom X3
Nakon što je na kraju prošle godine pod velikim pritiskom javnosti i konkurencije predstavljena K10 Phenom generacija procesora, AMD se našao u dosta teškoj situaciji gde njihov novi proizvod jednostavno nije dovoljno konkurentan. Ono što je kasnije veoma jasno moglo zaključiti je da Phenom u momentu izlaska na tržište jednostavno nije bio potpuno završen proizvod. Iako ova konstantacija ima više svojih aspekata, jedan od njih je vrlo brzo isplivao u javnost. Naime, iako se greška u TLB-u javlja u veoma retkim i čudnim situacijama, ovo nikako nije bilo dobro za AMD jer u očima mnogih to zakucalo sudbinu Phenom procesora. Sam AMD je veoma brzo reagovao kako bi dotični problem bio neutralisan, pa je prvi korak bio korekcija BIOS-a matičnih ploča. Problem sa ovim zahvatom je bio u dosta velikom padu performansi u dosta scenarija, tako da je bilo preporučljivo uopšte i ne koristiti ovu opciju ukoliko se TLB problem ne manifestuje, a istina, 99% korisnika nije bi primetila dotičnu grešku ili imala bilo kakve probleme. Ipak, dotični problem je morao biti uklonjen, a to je učinjeno sa novom revizijom Phenom jezgra označenom kao B3. Sa ovom verzijom Phenom, TLB bug je rešen na hardverskom nivou, tako da sada nema ni pada performansi i bilo kakvih sličnih nedostataka. Međutim, iako je ovaj problem rešen, i dalje ostaje činjenica da Phenom X4 jednostavno nije dovoljno brz u poređenju sa Core 2 Quad procesorima. Logično, ovo se ne može tek tako rešiti, pa se za konkurentnost na tržištu moralo tražiti neko drugo rešenje. Tu na scenu nastupa ideja od triplecore, odnosno procesoru sa tri jezgra. Kao što već možda naslućujete, razlika u arhitekturi između Phenom X4 i Phenom X3 procesora je nepostojeća, pa ukoliko je potrebno, na ovom mestu se možemo podsetiti detalja vezanih za K10 arhitekturu.
Noviteti
Svako jezgro kod Phenom-a poseduje svoj L1 keš (po 64 KB sa istrukcije i 64 KB za podatke), a nivo asocijativnosti je ista kao i kod K8 jezgra. Jedina prednost kod K10 jezgra sa L1 kešom je proširena magistrala samog keša, tako da K10 može u jednom kloku da ima dva 128bitna pristupa, što ga čini duplo efikasnijim po kloku prilikom obrađivanja nekih od SSE istrukcija. Situacija od L2 keša je veoma slična, tako da svako jezgro ima svoj L2 keš kapaciteta 512 KB, a napredak se odnosi na duplu širinu veze između L1 i L2 keša. Finalni segment predstavlja L3 keš veličine 2 MB, a u pitanju deljena keš memorija. Ovu praksi znači da sva četiri jezgra mogu pristupati L3 kešu i tako maksimalno brzo, direktno na nivou procesora razmenjivati informacije ukoliko je to potrebno. Sadržaj L3 keša uglavnom predstavlja kopiju podataka iz L2 keša, ali ukoliko samo jedno jezgro koristi određene podatke, oni se brišu iz L3 keša kako bi se oslobodilo mesto za neke druge. Ukoliko neko drugo jezgro zatraži neki od modifikovanih podataka koji se nalaze u L1 ili L2 kešu nekog od jezgara, oni se direktno kopiraju u L3 keš i tako stavljaju na raspolaganje ostalim jezgrima. Upravo zavaljujući ovim karakteristikama AMD zasniva svoju priču da je Phenom prvi pravi Quad Core procesor. Da se podsetimo, svi aktuelni Intel Core 2 Quad procesori su sastavljeni na prost način „lepljenja“ dva dualcore jezgra. U ovom slučaju, sva potrebna komunikacija između jezgra se odvija preko memorijskog kontrolera koji se kod Intel-a još uvek nalazi u northbridge-u čipseta.
Kako sam čipset radni na mnogo nižoj brzini nego procesor, jasno je da u takvim situacijama dolazi do usporenja, pa je AMD sa svojim naprednijim pristupom ovde u prednosti. Međutim, kada u proračune uvedemo realnost softvera, dolazimo do činjenice koje su bili svesni u Intel-u kada su i kreirali svoje dual i quad core procesore. Dakle, pri multitaskingu četiri različita programa (thread-a) jednostavno nema mnogo potrebe da jezgra između sebe razmenjuju podatke. Jedno jezgro se bavi WinRAR-om a drugo FireFox-om, i tu nema šta da se meša. Kod renderinga sama aplikacija podeli posao na četiri dela pri kome opet nema nešto mnogo potrebe za razmenom informacija između jezgra u procesoru, ima je, ali ne toliko da bi značajnije uticala na preformanse. Zbog toga AMD do sada iz ovog segmenta arhitekture nije uspeo da izvuče prednost u odnosu na Intel.
Nakon ove priče o kešu, dolazi do još jednog dela keš memorije koji se naziva TLB ili „Translation Lookaside Buffer“, oko kojeg se upravo zadnjih sati digla još dodatna prašina. Naime, u nekim slučajevima pri komunikaciji TLB-a i L3 keša dolazi do korupcije podataka i blokiranja celog sistema. Ipak, kada je K10 arhitektura u pitanju ovde najbitnije da je ceo raspon TLB bafera mnogo veći nego što je to slučaj sa K8 jezgrom. Sa novim većimTLB baferom K10 može izvrši translaciju celog 1 GB podataka, što bi novim operativnim sistemima (Vista) i pratećim softverom trebalo da omogući brži rad. Kada izađemo iz keša, potrebno je pristupiti memoriji, a tu na delo dolazi memorijski kontroler. Kao K8, Barcelona poseduje potpuno integrisan DDR2 memorijski kontroler čija je glavna prednost mnogo manji latancy prilikom pristupa memoriji. Ipak, integrisani memorijski kontroler u K10 jezgru doživeo je značajne promene radi povećanja efikasnosti. Sada se podaci mogu transferovati preko jednog 128bitnog ili dva 64bitna kanala, i to po aktuelnim potrebama kako bi dva ili više jezgara mogli što lakše i nezavisno da pristupaju sistemskoj memoriji. Pored toga, algoritmi za optimizaciju pristupa su takođe poboljšani. Memorijski kontoler grupiše zahteve za upisom ili čitanjem podataka, slaže ih po prioritetu, i na kraju beleži učestale „paterne“ radi što preciznijih prefetch opreacija. Sam prefetch mehanizam mehanizam je uvek bio dobra strana K8 jezgra i omogućavale je veoma dobro memorijske performanse. Sa novim procesorom je sve to dodatno poboljšano. K10 sada može da vrši prefetch direktno iz sistemske memorije u L1 keš procesora, preskačući latency L2 i L3 keša. Pored toga, prefetch mehanizam je mnogo fleksibilniji i ima veći nivo praćenja i analiziranja upita kako bi se smanjilo punjenje keš memorije eventualnim nepotrebnim podacima. Prefetch jedinica u memorijskom kontroleru je u stanju da prati zahteva iz sva četiri jezgra i tako na efikasinij način planira i izvršava kopiranje podatak u keš memoriju. Sve ove promene doprinose činjenici da je AMD sa K10 jezgrom izvršio značajna unapređena celog sistema za manipulaciju memorijom, a sve to u cilju, naravno, što boljih performansi. Ipak, analizirajući sve ove detalje ostaje činjenica da Intel Core2 arhitektura ima nešto efikasnije prefetch sisteme. Jasno je da se u nedostatku integrisanog memorijskog kontrolera Intel morao potruditi da prefetch mehanizme učini što boljim kako bi performanse memorijskog podsistema bile na visokom nivou. Tako K10 prefetch nema mogućnost prađenja pojednačnih instrukcija na pojedinačnoj adresi, ili nema prefetch direktno iz L2 u L1 keš radi dodatnog neutralisanja latencije samog L2 keša. Naravno, kada se izađe iz kompletne priče o kešu, sve ovo sa ostalim delom sistema povezuje nova generacija HyperTransport 3.0 linka. HT 3.0 nudi maksimalnu teorijsku propusni moć od 20.6 GB/s, što je više nego duplo u odnosu na prethodnu generaciju HyperTransport linka koju koristi K8 jezgro.
Što se osnovnih ALU i FPU jedinica tiče, one su veoma slične kao i kod K8 jezgra, ali uz par značajnih unapređenja. Jedna od najvećih uskih grla K8 jezgra se odnosio na striktno praćenje redosleda memorijskih upita, što znači da memorijski upit i instrukcija ne može biti izvršena van svog redosleda iako je sve spremno, sve ovo mora da čeka svoj red. Kod novog procesora ovo se više ne događaja, jer je K10 sposoban da vrši „out of order“ upite, kao i da potpuno nezavisno vrši upis ili čitanje podataka ukoliko CPU utvrdi da nema konflikta između zadatih adresa. Još jedno unapređenje K10 jezgra se odnosi na ubrzanje intiger deljenja što je jedna generalno jedna od najsporijih funkcija, te je programeri u svom kodu dobran izbegavaju, ali u slučaju K10 jezgra više ne moraju brinuti o tome. Generalno gledano, K10 poseduje veoma efikasne intiger jedinice koje bi trebalo da omoguće sasvim solidne performanse u odnosu na Core 2 procesore. Adekvatna unapređenja su izvršena i na FPU jedinicama. Interna magistrala je proširena na 128bita te se ove SSE istrukcije sada mogu izvršiti samo u jednom kloku, a FPU jedinice poseduju iste „out of order“ mogućnosti koje smo malo pre opisali. Pored toga, FPU jedinice više ne troše svoje resurse na učitavanje instrukcija već za to postoji posebna jedinica, a pri tome ona može izvršiti dva učitavanja instrukcija u jednom kloku. Naravno, sve ovo je povezano sa povećanjem magistrale između L1 i L2 keš memorije na 128bita što uz sva unapređenja FPU jedinice K10 jezgra čine efikasnijim i fleksibilnijim u odnosu na staro K8 jezgro. Kada ove detalje uporedimo sa Core2 arhitekturom, može se reći da K10 poseduje nešto naprednije FPU jedinice, i to prvenstveno zbog mogućnosti dva 128bitna čitanja ili jednog 128bitnog upisa u jednom kloku procesora. Pored svih unapređenja već postojećih stvari, Phenom sa sobom donosi određeni set novih instrukcija (LZCNT, POPCNT, EXTRQ, INSERTQ, MOVNTSS, MOVNTSD) koje predstavljaju AMD verziju SSE4 instrukcija koje još nose oznaku SSE4a. Na žalost, SSE4a instrukcije nisu kompatibilne sa Intel-ovim SSE4.1 i SSE4.2 setovima instrukcija koje će se pojaviti u Penryn jezgru. Finalni značajniji novitet se odnosi na unapređenu virtuelizaciju sa „Nested Paging“ sistemu koji u odnosu na klasični „Shadow Page“ sistem donosi teoretsko povećanje performansi virtualnih mašina i do 45%.
Sva ova unapređenja i tehnologije koje su implementirane u K10 nisu bile dovoljno dobre da AMD sa novim Phenom X4 procesorom bude dovoljno konkurentan na tržištu. Pored toga, jedan od problema sa kojim sa i dalje proizvodnja suočava je i dalje dosta mali „yeld“, ali i određen procenat primeraka koji su se pokazali kao neispravni u procesu testiranja. U želji da maksimalno optimizuje svoje troškove, AMD primenjuje već odavno poznatu ideju koja se odnosi na isključivanje određenog dela jezgra koji se kroz proces testiranja finalnog proizvoda pokazao kao defektan i plasiranje takvog proizvoda na tržište. Tako nastaje procesor koji nosi oznaku Phenom X3 8750 i predstavlja prvi PC procesor na tržištu sa tri aktivna jezgra. Time se Phenom X4 primercima koji su izašli sa trake je jednim neispravnim jezgrom pruža druga mogućnost za život kao Phenom X3. Ranije, AMD i Intel su koristili ovaj „trik“ za isključivanje određenog dela L2 keš memorije, i time dobijali model koji su mogli jeftinije da plasiraju na tržište i iz potencijalno „neispravnog“ procesor izvuku novac. Sada sa Phenom X3, AMD po prvi put ovu praksu primenjuje na celo jezgro. Samo pitanje iskorišćenja procesora je veoma bitno za AMD, jer se usled kompleksnije K10 arhitekture češće događa da jedan deo procesora bude defektan. Sa druge strane, kako su Core2Quad procesori sastavljeni u stvari od dva dualcore jezgra, sama šanse da quadcore čip na kraju bude neispravan su daleko manje, ali je i mnogo manja mogućnost da tu na kraju nešto učini ako dođe do greške u proizvodnji. Usled posebne blok K10 arhitekture, kod ovih procesora je veoma lako isključiti neko jezgro ili deo L3 keš memorije, a da se pri tome ne vrše nikakve izmene na procesoru. Ako direktno uporedimo Phenom X4 (Agena) i Phenom X3 (Toliman), možemo videti da su različiti modeli projektovani da rade na gotovo istom radnom taktu, kao i da je brzina rada memorije ista. Mala razlika u taktu je u stvari samo posledica tržišnog pozicioniranja Phenom X3 procesora, a ne realnih razlika. Kada pogledamo keš memoriju, jasno je da razlika postoji samo na drugostepenom nivou. L1 i L3 keš je istog kapaciteta, dok je L2 za 512 KB manji koliko i ima jedno Phenom jezgro. Brzina HyperTransport magistrale je kod Phenom X3 procesora predviđena za rad na 3.6 GHz naspram 4 GHz kod Phenom-a X4, ali je ovo učinjeno ne samo zbog pojačavanje razlika između dva procesora, već i zbog povećane kompatibilnosti sa AM2 matičnim pločama. Naravno, ovde je ideja da se triplecore procesori što više približe korisnicima iz „value“ segmenta. Upravo u ovom tipu korisnika AMD vidi najviše potencijala, jer će se Phenom X3 po svojoj ceni boriti sa Core 2 Duo modelima. Naravno, pored cene boriće se i po pitanu performansi, a kako stoje stvari možemo da vidimo u sledećim tabelama. Ipak, pre prelaska na tabele sa rezultatima moramo konstatovati da AMD sa Phenom X3 procesorima, određenim matičnim pločama i verzijama operativnih sistema ima neke sitnije probleme sa kompatibilnošću, pa usled toga nismo bili u mogućnosti da uradimo sve testove koje inače spadaju u našu test proceduru. U nekim testovima jednostavno bi bilo detektovano samo jedno jezgro, u drugim bi došlo do krahiranja aplikacije čim se potegne multithread artiljerija i tako dalje. Zbog toga ćemo kada se situacija malo slegne, izađu nove verzija BIOS-a i raznog softvera ponovo „provrteti“ sve testove, čisto za svaki slučaj.
Test sistem
Matične ploče
ASUS Crosshair II
Procesor i
kuler
AMD Phenom X3
Intel Core 2 Duo E7200
Intel Core 2 Quad Q6600
CoolerMaster Eclipse
Memorija
2×1 GB DDR2 800
Grafička karta
ASUS EN9600GT TOP
(Windows Vista 32-bit)
Hard disk
500GB SATA2 Western Digital WD5001ABYS RE2
Opički uređaj
DVD-RW Pioneer 215D SATA
Napajanje
CoolerMaster RealPower 1000W
Monitor
Samsung SyncMaster 960BF
Rezultati – SiSoft Sandra 2008 Pro i Everest
Rezultati – drugi sintetički testovi
Rezultati – aplikacije i 3D testovi
Rezultati – 3D igre
Komentar rezultata
Naravno, odmah je jasno da Phenom X3 mnogo zaostaje u poređenju sa dobrim, starim Core 2 Quad Q6600, ali su ovi rezultati tu kako bi pružili podatke o tome koliko je Phenom X3 sporiji. Sa druge, realne strane, glavni konkurent će biti takođe nov procesor sa oznakom Core 2 Duo E7200 koji je Intel tek nedavno predstavio tržištu kao lowcost dualcore rešenje. Tu stvari već postaju zanimljivije, jer u određenim situacijama Phenom X3 uspeva da ostvari primetno bolje performanse. Naime, kada se u uslovima Vista operativnog sistema i šireg seta aktuelnih aplikacija poredi brzina koju nude stari singlecore i novi dualcore procesori, dva jezgra nude mnogo bolje performanse koje su u određenim scenarijima čak i duplo veće. Kada se opet izvrši slično poređenje između dualcore i quadcore modela, generalni stepen peformansi koje nude quadcore procesori je nešto veći, ali ni blizu kao u prethodnom slučaju. Samo uzak krug aplikacija, koje se prvenstveno tiču 3D renderinga maksimalno mogu da uposle sva jezgra koja su na raspolaganju. Upravo na ovu stvar se računalo sa Phenom X3, jer će u mutlithread aplikacijama, posebno u 3D renderingu novi procesor moći da pruži bolje performanse od konkurentskih dualcore modela. Tako Cinebench R10 veoma jasno pokazuje prednost posedovanja jednog jezgra više, a ista stvar se potpuno prenosi i na Maya i 3DMax softverske pakete. Na gaming strani, u zavisnosti od optimizacije samog engine-a igre, Phenom X3 poseduje potencijalnu mogućnosti za bolje performanse od dualcore modela.
Rezime
Procesoru Phenom X3 na putu ka uspehu stoje problemi koje smo već naveli tokom testa, pa upravo zbog ove činjenice, u ovom momentu mu ne možemo dati apsolutnu preporuku. Potrebno je sačekati da se situacija malo slegne i da potrebne zakrpe legnu na svoje mesto. Naravno, oni koji nemaju želju da čekaju i zamaraju se sa ovim stvarima, na raspolaganju imaju bilo koje Core 2 Duo rešenje iz konkurencije, koje će na većim radnim učestanostima u većini slučajeva biti i brže rešenje. Entuzijasti ograničenog budžeta mogu sa AMD Phenom X3 procesorom i odgovarajućom matičnom pločom baziranom na AMD 780G čipsetu dobiti veoma jeftin računar vrlo dobrih performansi. Studenti koji se bave 3D modelingom i animacijom bi u ovoj situaciji mogli da pronađu interesantno rešenje, jer ako Phenom X3 negde bolje radi od dvojezgarnih procesora, onda su to 3D rendering aplikacijama. Koliko će sve ovo biti interesantno pomenutom profilu korisnika veoma će zavisiti i od toga koliko agresivno AMD može i želi da postavi Phenom X3 procesore. S obzirom na situaciju u kojoj se nalazi, sasvim je za očekivati da će ovaj procesor konstantno pratiti izuzetno povoljna cena. Tako bi sa adekvatno niskom početnom cenom čitave (Spider) platforme korisnici koju kupuju nov računar mogli lako da se odluče baš za komponente koje u svim segmentima stižu iz AMD-a. Isto tako mnogi vlasnici AM2 matičnih ploča bi mogli da se odluče za upgrade, pa bi se i na taj način mogla poboljšati prodaja AMD Phenom X3 modela kojih će u budućnosti biti u još većem rasponu radnih taktova sa verovatno još nižom cenom. Ovde treba pomenuti i overkloking potencijale koji se nisu ništa značajnije promenili u odnosu na AMD Phenom X4, pa tako nismo ovome ni posvetili neku pažnju jer je uglavnom i ranije sve rečeno. Ipak, može se primetiti da je testirani AMD Phenom X3 bio za nijansu raspoloženiji za overkloking zahvate, što nagoveštava mogućnost da AMD Phenom X3 bude veoma blizu stabilnog rada na 3 GHz. Naravno, Intel koji do pojave Core 2 Duo E7200 i nije imao adekvatnu ponudu u low-cost segmentu će takođe biti agresivan po pitanju cene i to će svakako bez problema da podnese. Ostaje da vidimo kako će se situacija dalje razvijati, ali za AMD i u ovom momentu imperativ ostaje razvoj 45-nm proizvodnog procesa i povećanje radnog takta, kako bi se kompletna K10 generacija procesora i po performansama, a ne samo ceni, približila konkurenciji.
Procesor na test ustupio AMD.