大数据的矩阵计算基础
近年来,存储设备的单位成本以惊人的速度下降,我们可以轻而易举地积累起大量的数据。电信 运营商,可以记录用户通话、短消息、无线上网产生的每一条信令,省级运营商一小时写入存储设备的数据量可以达到几百G。电子商务网站,可以记录用户的每一 次交易,甚至每一次点击,可以复原用户的完整访问路径找出用户的兴趣点。城市监控体系,在各个重要路口,高速公路上的摄像头,每秒钟都在产生海量的视频数 据。在生命科学领域,对人体的DNA分析,一个个体就能产生几个G数据,可以想象如果一个生物信息数据库里包含了成千万的个体数据,信息量将会是怎样一个 规模,如此等等,不胜枚举。我们毫无疑问,正处于一个信息爆炸的时代。
不幸的是,我们得到的这些数据中的绝大部分,在它的生命周期里基本上都被闲置着,从来没有考虑过产生任何的价值,唯一的用途就是“保存备查”。尽管“啤酒与尿布”的故事,已经写入教科书有10多年了,几乎每一个接受过专业教育的同仁都知道数据挖掘能产生的价值,但是直到今天,我们对数据的处理依然很低。造成这种情况的原因有很多。其中之一是,在各公司里保管数据的大多是IT人员,他们通常都缺乏必要的数学素质和知识基础去进行建模和深入的分析工作,即使是业务人员也鲜有对数据有深入认识者。我们推出大数据系列(包括Hadoop,NoSQL,Mahout等)和数据分析系列(包括R,SAS等)课程后,观察学员(特别是IT工作者和业务人员)的学习状况,发现他们中的大多数严重缺乏进一步挖掘数据价值所需的数学素养。例如数据分析中最基本的数据组织形态--矩阵,常见到有学员根本不知道为何物,可能从来没学过,也可能学过忘光了。但不理解矩阵,就看不懂公式。看不懂公式,就根本不懂数据分析的语言,学习起来犹如哑巴吃黄连有苦难言(《黑客帝国》里把那部控制一切的机器称为Matrix--“矩阵”,这肯定不是无缘无故的)。至于像听Page-Rank,因子分析和主成分分析,推荐系统同现矩阵这些内容那就更像听天书。由此我们萌发了开一门矩阵计算的基础课程,给大家补一下数学的念头。本门课程的目标,正是要打破知识鸿沟,为大家巩固基础,为进一步在数据领域前进提供更强动力。线性代数是数据金字塔的重要基础,矩阵计算知识扎实,无论学习R,SAS,机器学习,数据挖掘,大数据分析等领域知识都会得心应手,省去回头补课的麻烦。
课程内容:
第1课 面向小白的线性代数:矩阵基本知识,加减乘法,转置,行列式,秩,逆矩阵
第2课 计算机派上用场:常用矩阵计算工具,Excel,R,Matlab,怎样使用软件书写矩阵公式
第3课 了解直观背景是最好的学习方法:矩阵的代数意义,线性方程组,线性相关性
第4课 从初中生的二元一次到高精专的n元一次:线性方程组详解,克莱姆法则
第5课 任何东西只要画出图就解决了一大半:矩阵的几何意义,向量空间,基和维数,基变换
第6课 向高维空间进发:向量空间进阶,线性变换
第7课 抓住不变量是数学方法的本质所在:内积,正交矩阵,特征值和特征向量
第8课 给曲面分类:二次型,正定对称矩阵,二次型的对角化
第9课 从繁入简:矩阵分解,标准型
第10课 走向机器学习:SVD分解及其应用
第11课 回归分析的实质:广义逆矩阵及其应用
第12课 矩阵技术在机器学习中的应用
第13课 有100亿亿个元素的矩阵怎样存储:稀疏矩阵
第14课 挑战Google的核心秘密Pagerank计算:大型矩阵计算的并行化
课程将于8月7日开课,课程持续时间为16周。
授课对象:
这是一门数学课程,适合有志于转往大数据分析领域的非数学专业人士(例如IT人,业务人员等)补强数学基础,以更好地学习更高级的数据分析,数据挖掘,机器学习课程
可以大幅度提高学员的数学基础,使其学习其它大数据分析课程时觉得更加简单,得心应手
授课讲师:
何翠仪,中山大学统计学专业毕业,炼数成金专职讲师,曾讲授《大数据的统计学基础》课程及参与多门数据分析课程的助教工作。主持建设炼数成金的R语言认证题库系统(即将上线)。
黄志洪(tigerfish),ITPUB创始人,炼数成金创始人。中山大学海量数据与云计算 研究中心主任。数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。曾经讲授炼数成金上《数据分析、展现与R语言》、《数据分析与 SAS》、《Hadoop数据分析平台》等多门受欢迎课程。他将带领他的数据分析团队完成整个授课工作。