windows - Fejl i Eclipse udførelse Python program ved hjælp af Spark bibliotek

Indlæg af Hanne Mølgaard Plasc

Problem



Jeg fulgte denne vejledning her for at konfigurere eclipse til python programmering ved hjælp af Spark biblioteket. Jeg fulgte trin for trin uden noget problem ... [5]


Men når jeg udfører dette prøveprogram:


# Imports
# Take care about unused imports (and also unused variables),
# please comment them all, otherwise you will get any errors at the execution.
# Note that neither the directives "@PydevCodeAnalysisIgnore" nor "@UnusedImport"
# will be able to solve that issue.
#from pyspark.mllib.clustering import KMeans
from pyspark import SparkConf, SparkContext
import os

# Configure the Spark environment
sparkConf = SparkConf().setAppName("WordCounts").setMaster("local")
sc = SparkContext(conf = sparkConf)

     # The WordCounts Spark program
    textFile = sc.textFile(os.environ["SPARK\_HOME"] + "/README.md")
    wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
    for wc in wordCounts.collect(): print wc


Jeg får en liste over fejl som denne:


Indtast billedbeskrivelse her [6]


Skal jeg ændre en sti eller følge anden konfiguration for at få det til at fungere?

Bedste reference


Hvis du kører pyspark shell i samme mappe, hvor readme-filen er gemt, behøver du ikke at give gnistens hjemvej.


Prøv at fjerne gnistens hjemvej og '/'.


textFile = sc.textFile("README.md")


eller


textFile = sc.textFile(os.environ["SPARK\_HOME"] + "README.md").


Definer en split tilstand. plads adskilt eller '#' nogen værdisepareret split


lambda line: line.split(" ")