Er der en god online-vejledning til Hadoop-udvikling på en Windows 7-maskine?

Indlæg af Hanne Mølgaard Plasc

Problem



Jeg har fulgt den fantastiske Yahoo! Hadoop-vejledning, som fungerede rigtig godt for at få et virtuelt maskinmiljø oprettet (modul 3 i vejledningen). Men nu bliver jeg stumped af HDFS-sektionen (modul 2) og tror det kan være nemmere, hvis jeg havde en Windows-specifik vejledning. Jeg forsøgte at følge denne ene, men nogle af trinene var ikke helt rigtige. Jeg har forsøgt at finde en god tutorial, der vil virke for mig på min Windows 7-maskine, men er lidt fast. Er der et godt sted at gå til dette? Hadoop synes at være meget gearet mod Linux-brugere, og desværre må jeg bruge min arbejdsbærbar computer, som er Windows 7. Kan jeg gøre dette arbejde eller virker det egentlig kun for Linux-brugere? [2] [3]

Bedste reference


Hadoop-tutorialen på Yahoo Developer Network er forældet og problematisk. Halvdelen af ​​trinene virkede mig slet ikke (jeg kørte deres billede i VMware Player på Windows 7), og den anden halvdel var vag. Java-kodeeksemplerne var dårligt skrevet og ville ikke kompilere. I hvert fald er de skrevet til den gamle Hadoop API.


Jeg gav op på denne tutorial og i stedet brugte Cloudera Demo VM image. Dette kommer forud konfigureret med Hadoop, Pig, Hive, HBase osv. Jeg var i gang på en gang og havde ingen problemer med at kompilere og køre Hadoop jobs og Pig scripts.


Cloudera Demo VM-overførsler på deres hovedsideside (https://ccp.cloudera.com/display/SUPPORT/Cloudera's+Hadoop+Demo+VM) er alle 64-bit. Hvis du leder efter en 32-bit version som jeg var, du kan få en her: https://downloads.cloudera.com/cloudera-demo-0.3.7.vmwarevm.tar.bz2[4][5]


Denne har en lidt ældre version af Cloudera distro (CDH3u0), der kører på Ubuntu 10.10 med Gnome desktop. Jeg installerede Eclipse til at kompilere mine Hadoop-job, men tøvede ikke at installere Hadoop-plugin'et, som jeg har hørt er problematisk. For første gang lavede jeg fejlen ved uheldigvis at opdatere Cloudera distro til CDH3u3 via systemets opdateringshåndtering, og dette ødelagde min Hadoop-konfiguration. Jeg vidste ikke, hvordan jeg skulle omkonfigurere det ordentligt, så jeg begyndte lige fra den originalt billede.


For at få Pig at køre, skal du først indstille JAVA\_HOME-variablen: export JAVA\_HOME=/usr/lib/jvm/java-6-sun


Desværre spildte jeg masser af tid med den gamle YDN-tutorial, før en Java-udviklervriend, der var bekendt med Hadoop, pegede mig på Cloudera-distributionen.

Andre referencer 1


Jeg var helt ny til hadoop og ærligt fandt jeg cloudera tutorials og oplysninger helt uhensigtsmæssigt. Giv IBM dem et skud, de er super hjælpsomme, og de er meget venlige for begyndere. Trin for trin instruktioner for stort set alle de centrale programmer for hasoop og et par specifikke til IBMs distro.


Her er downloadlinket. -


https://www14.software.ibm.com/webapp/iwm/web/preLogin.do?source=swg-ibmibqsevmwu0026amp;S\_TACT=109HF38Wu0026amp;S\_CMP=109HF[6]


Du skal lave en konto, men det er gratis og tager ikke så lang tid.


Jeg kan ikke sende mere end et link lige nu, men det er ret nemt at finde vejledningerne online, og de findes også inden for VM.


Der er også et forum, som jeg har skrevet mine spørgsmål om, når jeg sidder fast, og nogen fra IBM har altid hjulpet mig inden for en time til en dag. Kan ikke sende linket, men hvis du google 'IBM InfoSphere BigInsights Forum', er det det første hit.


Held og lykke!

Andre referencer 2


Jeg forsøger at lære Hadoop lige nu også, og hvad jeg gjorde var download virtuel boks (http://www.virtualbox.org/) og indlæse nogle Linux-billeder på det og begyndte at følge vejledninger. [7]


Du kan endda få et pre-made hadoop setup billede fra cloudera. Jeg tror, ​​at denne fremgangsmåde er langt bedre end at installere og installere på din primære maskine, fordi i tilfælde af at der er 'et problem du', vil hovedmaskinen ikke blive gennemført (du kan simpelthen vende tilbage til en gammel kopi af dit virtuelle linux-billede eller skrabe det og start igen uden nogen indflydelse).


Held og lykke!

Andre referencer 3


At udvikle Hadoop på Windows er gennemførlig, men svært at få det rigtige. Det kræver installation af Cygwin og at få alle miljøvariablerne rigtige kan være vanskelige.
For at komme i gang med at udvikle på Windows anbefaler jeg at installere vmware-afspilleren og køre den præ-konfigurerede virtuelle maskine af Cloudera. Dette betyder simpelthen, at du vil udføre Hadoop-udviklingen i Linux uden at genstarte eller geninstallere dit Windows-system og uden installationsproblemerne assiciated with cygwin.


https://ccp.cloudera.com/display/SUPPORT/Cloudera\%27s+Hadoop+Demo+VM[8]

Andre referencer 4


Jeg har også ramt mit hoved mod yahoo tutorialen i lang tid. Eclipse-pluginet holdes ikke længere og er temmelig upåliteligt. Forhåbentlig vil cloudera-billedet gøre tricket.

Andre referencer 5


Jeg har netop afsluttet 'Hadoop Fundamentals I - Version 2' på http://bigdatauniversity.com.
Det leveres med IBM BigBisunessInsight VMWare-billeder og fungerer meget godt. [9]


Billederne indeholder en lokal tilstand en og en klynge mode en. Det er i stand til at simulere en multiple noder-klynge i min Windows 8-arbejdsstation med 8 GB RAM.


Håber, at disse oplysninger er nyttige :-)