专注细节
努力进步

burness的文章

第3页
Spark

Machine Learning With Spark Note 5:构建聚类模型

burness阅读(1591)评论(1)

构建聚类模型 在Machine Learning领域中,我们常会遇到聚类模型这个概念,和分类与回归模型不同,聚类model是属于无监督模型,无须label信息。 聚类模型在实际中有很多应用的case,比如: 对用户或者消费者群体进行用户行为 […]

Spark

Spark Streaming 尝试

burness阅读(1810)评论(0)

Spark Streaming简介 何为streaming?在实际中,有一类数据是连续性生产,流式方法主要就是为了解决这块的问题,将连续性数据切分离散型单元来进行处理的方法。生活中比较熟悉的是视频或者音频的流式服务就是将连续性的数据分为一个 […]

Spark

Spark SQL尝试

burness阅读(1314)评论(0)

简介 Spark SQL最早合并Shark,一个尝试将Hive跑在Spark上的project。Hive是Hadoop生态圈的一个重要组成部分,内部主要是讲SQL转换为MapReduce Job。 Shark将其中的MR部分用Spark改写 […]

机器学习

Stanford CS224d笔记之Word2Vec

burness阅读(5086)评论(3)

前言 这篇文章的目的仅仅只是对word2vec有一个大致的了解,网络上有很多相关的文章对word2vec的原理以及数学分析讲的很清楚了,如果你想把word2vec完全搞清楚,可以去看看那些讲解数学原理的文章。本文只适用那些想了解word2v […]

机器学习

Machine Learing With Spark Note 3:构建分类器

burness阅读(3102)评论(4)

Spark构建分类器 在本章中,我们会了解基本的分类器以及在Spark如何使用,以及一套如何对model进行评价、调参。MLlib在这一块还是比较强大的,但是对比sklearn无论是算法种类以及配套功能还是有很大的差距。不过,据传spark […]

机器学习

机器学习模型评估

burness阅读(3291)评论(0)

前言 当数据好了之后,你所需的只是调下开源包,然后一个模型就出来了,但是,好与不好?谁来界定? 这篇文章,主要针对模型的评估,系统介绍下各种不同的模型的各种评测标准,主要参考Alice Zhang的这篇文章http://www.oreill […]

未分类

hive基础

burness阅读(713)评论(0)

hive表相关命令(不涉及数据操作) 查看表的详细信息: DESCRIBE EXTENDED table1,使用FORMATTED关键字代替EXTENDED的话可以提供更加可读的输出信息。 管理表(内部表)和外部表 内部表不方便和其他工作共 […]

机器学习

天池客流预测–GBDT

burness阅读(7121)评论(8)

前记 之前有参加天池的比赛,后面也会分享这个代码,用到过sklearn重的GBDT这个工具,效果还很不错,但是其实一直没有对它的原理搞通,最近花了点时间,好好研究了下GBDT这个东西,感觉很有意思。 基本介绍 有这样一个场景,训练集只有4个 […]