Tag: Apache火花

Apache的HttpClient和其他类在我的Android应用程序无法解析

我已经添加到我的android gradle项目: # app/build.gradle android { compileSdkVersion 23 buildToolsVersion "23.0.1" defaultConfig { applicationId "com.company1.android.my_app" minSdkVersion 17 targetSdkVersion 23 versionCode 1 versionName "1.0" } buildTypes { release { minifyEnabled false proguardFiles getDefaultProguardFile('proguard-android.txt'), 'proguard-rules.pro' } } sourceSets { main.java.srcDirs += 'src/main/kotlin' } } //………….. dependencies { compile 'org.apache.httpcomponents:httpmime:4.5.1' compile 'org.apache.httpcomponents:httpclient-android:4.3.5.1' } 所有这些都没有解决: import org.apache.http.HttpEntity import org.apache.http.HttpResponse import […]

为什么不Spark并行randomSplit

我有一些Spark代码可以创建一系列的RDD。 最后我调用randomSplit把它分成3组,然后我把它们写到磁盘上。 所以第一阶段是: 获取一些数据 做一些转变 缓存结果 通过randomSplit分割 将所有分割写入磁盘 因为步骤(4)将事物分成3组,所以在这里有3个不同的Spark阶段。 在第一阶段结束时,我们开始用尽第一阶段的任务,但是有执行者可用: 此时已经计算出了几个分区的数据集。 据我所知randomSplit按分区运行在一个分区上; 换句话说,它不需要洗牌或收集 – 它只是在每个分区的基础上随机选择行。 如果这是正确的,那么没有任何理由说明阶段2的一些任务不能在可用的执行程序上运行 – 它们的RDD的分区已经被计算和缓存。 为什么不启动一些阶段2的任务来利用可用的资源。 注意:显然,“他们可以,但他们没有”在这里回答是完全有效的。 我想我真正要问的是,是否有一些技术上的原因,我没有想到,这使得这不可能(或非常困难),或者这只是一个执行监督? 以下是代码的简化版本(在Kotlin中): fun run(sc: JavaSparkContext, opts: Options) { val allData = fetchABunchOfData() val allDataRdd = sc.parallelize(allData) val taggedAndTokenized = allDataRdd.mapPartitions { addTagsAndTokens(it) } // Convert each ResponseData to a JSON String val jsonStrings = taggedAndTokenized.map […]

我的额外Spark任务来自哪里?

我有一个Spark程序正在训练几个ML算法。 生成我工作最后阶段的代码如下所示(在Kotlin中): val runConfigs = buildOptionsCrossProduct(opts) log.info("Will run {} different configurations.", runConfigs.size) val runConfigsRdd: JavaRDD<RunConfiguration> = sc.parallelize(runConfigs) // Create an RDD mapping window size to the score for that window size. val accuracyRdd = runConfigsRdd.mapToPair { runConfig: RunConfiguration -> runSingleOptionSet(runConfig, opts, trainingBroadcast, validBroadcast) } accuracyRdd.saveAsTextFile(opts.output) runConfigs是一个包含18个项目的列表。 配置生成后的日志行显示: 17/02/06 19:23:20信息SparkJob:将运行18种不同的配置。 所以我预计最多有 18个任务,因为每个分区每个阶段至多应该有一个任务(至少这是我的理解)。 但是,历史记录服务器报告80个任务,其中大部分完成得非常快,毫不奇怪,不会产生任何输出: 实际上有80个输出文件,其中只有18个是空的。 我的问题是,这个阶段的其他80 – […]

在没有XML的情况下可视化Apache Camel路由

有没有可能可视化的Apache骆驼路线没有XML? Eclipse的(Red Hat插件)可以实现XML可视化。 那么Java / Kotlin DSL呢? 他们似乎在单个文件(如XML)中具有所有必需的信息。

Apache Tomcat 8.0无法加载使用Eclipse for Java EE,Mars 2编写的Kotlin中的servlet类

我正在使用Eclipse for Java EE,Mars 2.我在这个IDE中首先使用Java 8和Apache Tomcat 8.0.x编写了一个servlet应用程序,运行得很好。 现在,我试图将代码移植到Kotlin。 但是,Apache Tomcat服务器,似乎从下面发布的信息,无法找到并加载我的类LoginServlet 。 我已经移植了helper类,并且只是一个名为LoginServlet servlet类。 我删除了这个问题中的所有代码,只是为了展示一个简单的骨骼框架。 这是我的设置: package bookyard.server; // import statements ommitted for brevity open class LoginServlet : HttpServlet() { override fun doGet(request : HttpServletRequest, response : HttpServletResponse) { val msg: String = "HTTP GET method not supported."; try { response.sendError(HttpServletResponse.SC_METHOD_NOT_ALLOWED, msg); } catch (e: […]

Kotlin和Spark – SAM问题

也许我正在做一些不太受支持的事情,但是我真的很想在本书学习Apache Spark的时候使用Kotlin 这里是我试图运行的Scala代码示例。 flatMap()接受一个FlatMapFunction SAM类型: val conf = new SparkConf().setAppName("wordCount") val sc = new SparkContext(conf) val input = sc.textFile(inputFile) val words = input.flatMap(line => line.split(" ")) 这是我在Kotlin做这个的尝试。 但第四行有一个汇编问题: val conf = SparkConf().setMaster("local").setAppName("Line Counter") val sc = SparkContext(conf) val input = sc.textFile("C:\\spark_workspace\\myfile.txt",1) val words = input.flatMap{ s:String -> s.split(" ") } //ERROR 当我把鼠标悬停在它上面,我得到这个编译错误: 我做什么不合理或不受支持? 我没有看到任何建议与lambdas自动完成或者:(