机器学习并不是简单的玩数学游戏,它是能真刀真枪的解决很多实际问题的。简单归纳总结一下,机器学习主要解决六大类任务或者叫问题:分类问题、聚类问题、回归问题、关联问题、序列问题。
异常检测问题
1. 分类问题(Classification)
抽象来看,分类问题就是构造一个分类器(Classifier),可以对数据样本的类别进行预测。分类器可以理解为一个函数:y=f(x),其中x是自变量,y是因变量并且y的取值不是数值而是一个类别标签。当我们知道了x的取值之后,就可以根据f(x)来预测y的值。分类问题属于机器学习中的有监督学习。
典型的分类问题有:
判断一封邮件是否是垃圾邮件
判断一篇文章属于什么类型(例如体育类,财经类,娱乐类等)
判断贷款申请者的信用度好坏
检测信用卡消费是否存在欺诈行为
图像分类:识别图片中的物体
预测用户是否会流失
预测用户对营销活动是否会响应
预测用户对广告是否会点击
预测用户对商品是否有兴趣购买
2.聚类问题(Clustering)
“物以类聚,人以群分”,这就是聚类,它的目的就是要把相似的数据聚在一起。例如通信运营商可以对手机用户的通话行为进行聚类,把喜欢上网的聚类一类,喜欢夜间打电话的聚为另外一类。你也可以对大量的文章进行聚类,把相似的文章聚为一类然后归到同一个文件夹中。聚类问题属于机器学习中的非监督学习。
典型的聚类问题有:
用户分群:企业对用户的消费行为进行聚类,把用户划分为不同的人群,然后对用户进行差异化的营销和服务。
相似文档归类:对大量的文档进行聚类分析后,把文档分为若干个不同的类
注意:聚类和分类都有一个“类”字,但是它们有显著的差别:分类问题的“类”就是训练样本的标签,这个标签是训练模型之前需要事先标记好的,分类算法的目标是建立一个对标签进行预测的模型;而聚类的“类”,是聚类算法需要对数据进行学习之后才能得到的结果,在训练模型之前我们是不知道样本的类标签的。
3.回归问题(Regression)
回归问题和分类问题非常像,它们都属于监督学习的范畴。分类问题要构建的是分类器(Classifier),而回归问题需要构建的就是一个回归器(Regressor)。回归器也是一个函数:y=f(x),其中x是自变量,y是因变量,与分类问题不同的是,y的取值是数值而不是类别。当知道了x的值之后,就可以通过f(x)来预测y的值。
典型的回归问题有:
根据房屋的特征来预测房屋的价格
根据商品的特征来预测商品的销量
4.关联问题(Association Rule)
关联问题最有名的案例就是啤酒和尿布的故事。关联规则算法可以从交易型数据中发现频繁关联出现的Item(商品),又称为购物篮分析和关联规则挖掘。关联规则挖掘属于非监督学习。
典型的关联问题有:
买了还买:买了A商品的用户,同时还有多少比例会买其他商品
看了还看:看了A电影的用户,同时还有多少比例会看其他电影
5.序列问题(Sequence)
序列问题包括时间序列的预测,序列型关联规则(例如先看了速度与激情1,接下来看速度与激情2的可能性比较大)等。语言模型(哪些词经常可以搭配在一起)也属于序列问题。序列问题既可以是非监督学习的方法(类似关联规则算法),也可以转换为回归,分类等监督学习的问题。
典型的序列问题有:
根据用户之前购买的商品预测接下来可能会买的商品
时间序列预测:如预测股票和预测天气等
中文分词:判断哪些字组合在一起最有可能像一个词语
6.异常检测问题(Outlier Detection)
异常检测就是检测样本取值是否显著的偏离常规,从中发现有意义的孤立点和异常值。监督学习和非监督学习都可以应用于异常检测问题。
典型的异常检测问题有:
信用卡异常消费检测(欺诈检测)
网络安全检测
不合格产品检测
日常工作中,你遇到的机器学习问题基本上都逃不出这六大任务。
留言与评论(共有 0 条评论) |