博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python3玩转儿 机器学习(1)
阅读量:5354 次
发布时间:2019-06-15

本文共 630 字,大约阅读时间需要 2 分钟。

机器学习的基础概念

数据

  • 著名的鸢尾花数据 https://en.wikipedia.org/wiki/lris_flower_data_set

lris setossa    lris versicolor    lris verginica

          lris setossa                                    lris versicolor                                         lris verginica

 

下面是鸢尾花的数据:

 

  • 数据整体叫数据集(data set)
  • 每一行数据称为一个样本(sample)
  • 除最后一列,每一列表达样本的一个特征(feature)
  • 最后一列,称为标记(label)

第i个样本行写作 ,也叫特征向量。第i个样本第j个特征值 第i个样本的标记写作

为了可视化特征方便,我们只抽取出特征中的前两个特征,其中萼片的长度作为横轴,萼片的宽度作为纵轴。

绘制下图:

对于每一个样本来说都会在坐标系中表示一个点,假设我们有三个特征,就可以在三维空间中表示它,同理如果有1000种特征,就可以在1000维的空间中表示它,而这个绘制样本的空间我们称它为特征空间(feature space)

通过可视化绘制样本点后,我们可以比较轻易的绘制出一根直线,红色样本在直线的一边而蓝色样本在直线的另一边。

分类任务本质就是在特征空间切分,在高维空间同理。

而鸢尾花拥有4个特征,应该是在4维特征空间中分析。

特征可以很抽象

  • 图像,每一个像素点都是特征
  • 28*28的图像有28*28=784个特征
  • 如果是彩色图像特征更多

转载于:https://www.cnblogs.com/taoke2016/p/8905933.html

你可能感兴趣的文章
Python之旅Day14 JQuery部分
查看>>
core--线程池
查看>>
redux-effect
查看>>
Android轻量级的开源缓存框架ASimpleCache
查看>>
他山之石:加载图片的一个小问题
查看>>
shell - 常识
查看>>
linux下编译复数类型引发的错误:expected unqualified-id before '(' token
查看>>
codeforces 1041A Heist
查看>>
Spring Cloud Stream消费失败后的处理策略(三):使用DLQ队列(RabbitMQ)
查看>>
bzoj1048 [HAOI2007]分割矩阵
查看>>
Java中的编码
查看>>
PKUWC2018 5/6
查看>>
As-If-Serial 理解
查看>>
洛谷P1005 矩阵取数游戏
查看>>
在Silverlight中使用HierarchicalDataTemplate为TreeView实现递归树状结构
查看>>
无线通信基础(一):无线网络演进
查看>>
关于python中带下划线的变量和函数 的意义
查看>>
linux清空日志文件内容 (转)
查看>>
Servlet接收JSP参数乱码问题解决办法
查看>>
Ajax : load()
查看>>