机器学习与数据挖掘(Bigger想入门机器学习、数据挖掘，我该怎么做？)_体育_资讯

机器学习与数据挖掘(Bigger想入门机器学习、数据挖掘，我该怎么做？)

头条快讯编辑关注加好友

2026-01-27 18:430评论

用理性的方式去思考问题，是数学带给你的礼物

想入门机器学习、数据挖掘，我该怎么做？我自己是本科数学出身，本科毕业的时候，我并不知道什么是机器学习，也没有写过大型程序，更不要说去搞一个机器学习的算法和实践了。。。。

让我们先看一道面试题（非原创）：一条路上有N棵树，每棵树都有两个指标，一个是位置a_i（是整数），一个是体积w_i（是整数），现在要把这些树砍下来，运到K个仓库，我该如何选择这些仓库的位置（也是整数），使得搬运的成本尽量小呢？假设理想情况下，每棵树的搬运成本为树的体积 x 搬运的位移^2。

我自己是本科数学出身，本科毕业的时候，我并不知道什么是机器学习，也没有写过大型程序，更不要说去搞一个机器学习的算法和实践了。但是回头看，真是因为本科时代打下的坚实数学基础，让我毕业后学习这些相关知识变得轻车熟路。这些本科时代就应该熟练掌握的东西包括：

数值数学（数值代数，数值分析，线性规划，二次规划，凸优化理论，常见的数值优化算法）
实分析和泛函的基础（这块内容有助于提升抽线思维的能力，一些经典结论对之后一些理论的理解很有帮助，比如RKHS）

Naive Bayes：真的只需要懂一点概率论就行了。

Logistic Regression：如果知道线性回归和广义线性回归，LR也不是什么特别的东西。如果知道最大熵原理，并能从它推导出LR那说明你对LR的理解又更深入了。

Kernel SVM：要真正理解这个或许需要先明白什么是RKHS。然后其他算法部分只是仿照Linear SVM的简单推广。RKHS相关内容可以参照umiacs.umd.edu/~hal/doc

Decision Tree：有两个需要了解CART 和 c4.5。这个很简单，没什么好说的，但是你能不能高效的实现它们呢？

再来看一些非监督模型，比如经典的有

聚类算法，以及如何评价聚类结果

以上这些东西，算是入门性质的。本科毕业后大概一年左右，这些东西我就基本熟悉了。要学习这些东西，看一些教材自然是好的，但是书里废话比较多呢，而且一本书的作者知道的东西毕竟有限，我都是倾向直接从维基出发找资料看的。说实话，现在很少会自己去实现这些算法了，这些经典算法都有现成的开源工具。事实上要写一个高效的Linear SVM也不是很容易的事情。

概率图模型（Probabilistic graphical model）：我是在Coursera上学习概率图模型这门课的，讲得真的非常好，正打算过二周目。学完这个课，掌握了图模型的设计，推断，和采样方法之后，就可以开始学习两个核心的机器学习模型，一个是Latent Dirichlet Allocation（LDA），常用于文本处理；一个是Probabilistic Matrix Factorization（PMF），常用于推荐系统。

其实是为了看懂她的工作，我才去学的这门课呢。

统计计算（Statistical computing）：这个课系统的介绍了数值积分方法，Monte Carlo方法（importance sampling, MCMC，Sequential/Particle MCMC，bootstrap），EM/MM。学完这门课，你能对这个领域的工具有个全局性的了解，明白每个工具的利弊，它们产生的历史来源，从而在具体问题中正确的选择使用它们。

深度学习（Deep learning）：说实话我刚开始接触这块内容发现，这尼玛就是传说中的黑科技啊。你不知道模型里面发生了什么，好坏都是看天吃饭的感觉。为了搞清楚这个，我决定重头开始实现神经网络。（代码在bobye/neuron · GitHub ）前前后后花了近半年的时间，在实现的过程中，我学习了构造和训练神经网络的各个细节。我是从Stanford这个Tutorial开始学习的UFLDL Tutorial 课程资料里提供了Matlab的源码，不过我喜欢重新造轮子，那个时候恰好在学习Scala，就用Scala重写了一个神经网络的库（这个语言的特性非常适合写神经网络的算法）。

优化（optimization）：没有优化算法，任何机器学习模型都是空中楼阁，如何用更高效的优化算法，如何trade-off 计算时间和准确度，如何把已有问题scale到更高规模的数据上一直都是“优化大师们”做不完的工作。这也是一个非常大的分支，我觉得现在比较流行的两个大类是随机梯度优化和ADMM。前者用来解决大规模非约束优化问题，现实情景用的很多，但我们对它知道的很少；后者用来解决带约束问题，有很多变体。此外，优化大家庭也又有很多别的成员，这时候我要推荐的资料包括J Nocedal的numerical optimization这本书，讲的内容非常充实。此外ADMM的内容当然看Boyd巨牛11年的Tutorial paper。

非参数贝叶斯统计（Non-parametric Bayesian statistics）：这个方向还非常年轻，有很多需要挖掘的东西，也是PhD的一个重要课题。

▌超级数学建模

注：记得附上你的打赏二维码！！！

企业招聘模块已经上线，唯品会、京东、百度正在招聘建模人才及数据挖掘人才，期待大家前往交流社区进行投递，感谢哦！

近期热门文章（关注回复）

104037：最极致的服务是体会不到的

104033：为什么车不多时也会堵

顶一下() 踩一下()

打赏

热门推荐

鲁能历届外援(值得收藏！山东鲁能泰山队历年外援名单一览（1998-2021赛季）)

马来西亚疫情(今天起马来西亚全国封锁！中国驻马大使馆发布重要提醒：这些场所不要去)

北美洲世界杯预选赛积分榜(世预赛中北美区最新积分榜：加拿大22分第一，美国墨西哥分列二三)

qq大家来找茬作弊器(这次我真要验牌了！一句电影台词火遍全网成了老百姓维权的口头禅)

青岛海牛官方微博(九年饮冰，热血未冷！中超，海牛回来了！青岛市足球协会发来贺电)

中国第一任主席是哪位(1976年：把华国锋定为接班人，是主席人生一件大事)

玛贝拉(2026好用的脱毛膏品牌实测推荐：全能脱毛天花板，全肤质闭眼冲)

乒乓球世界杯几年举办一次(收藏！2026乒乓赛历出炉：全年63站以上，运动员体能迎来严峻考验)

历届主席出生日期(中华民国国民政府时期新疆省历任主席一览（1928年-1949年）)

chromestable(告别繁琐安装！一招教你打造随身携带的Chrome浏览器)