大数据导论划重点
《大数据导论》课程讲稿章节目录:
第1章 大数据概述
(1)大数据的概念
(2)大数据的特征
(3)大数据的数据类型
(4)大数据的技术
(5)大数据的应用
第2章 大数据采集与预处理
1.大数据的来源:
1)对现实世界的测量:通过感知设备获得数据
2)人类的记录:由人录入计算机形成数据
3)计算机生成数据:• 计算机通过现实世界模拟等程序⽣成数据
2.多源数据采集:推拉
传感器:无线传感器网络,有线传感器网络
日志:系统的状态,行为,用户和系统的交互
数据映射,模式匹配,语义翻译
跨界数据集成
深度学习基本概念,卷积层的计算
卷积核的计算,池化层的计算
(5)数据变换
的种类0-1标准化,,zscgo 标准化
数据质量
重点:缺失值填充方法
预测或回归
(6)数据规约
第3章 大数据存储
关系数据模型:
关系数据模型里的数据结构
查询,更新,连接,投影,选择
结构化的查询语言:SQL 高级的非过程化的
SQL:数据定义语言,数据操作语言,数据控制语言(英文+简写) 内容,操作
区分:数据操作select
事务的四个特性:ACID及相关含义
三个文件系统的特性,架构,操作 对比(表格)
新型数据库:放弃ACID,采用宽松条件
图数据库的操作,表示,应用领域
(1)大数据存储概述
(2)数据存储介质
(3)存储系统结构
(4)云存储概述
(5)云存储技术
(6)新型数据存储系统
(7)数据仓库
第4章 大数据计算平台
(1)云计算概述
(2)云计算平台
(3)MapReduce平台
(4)Hadoop平台
(5)Spark平台
第5章 大数据分析与挖掘
聚类,相似性度量,特性,聚类结果的质量,常用准则函数(大概),K-means(图)性能分析(重点是第二点复杂度分析)缺点,改进方法
理解(决策树,KNN)
决策树(重点)(应用)定义划分停止条件。
KNN算法例子,优缺点。
距离度量应该满足的四个性质
图的基本概念,入度出度的计算
自然语言的数据分析:词表示分析,TF
(1)大数据分析概述
(2)大数据分析的类型及架构
(3)大数据挖掘
(4)大数据关联分析
(5)大数据分类
(6)大数据聚类
(7)大数据分析工具
第6章 大数据可视化
可视化分析,基本技术,
时空数据可视化的三类,要理解清楚
常见可视化工具及软件
(1)大数据可视化概述
(2)大数据可视化方法
(3)大数据可视化工具
数据安全与隐私保护,三点问题,危害,信息安全的内容,目标(具体含义)
数据采集的哪几类铭感信息
密码学:
加密技术:对称,非对称。
保密模型
消息鉴别码YUANLI ;图
数字签名技术的过程
PKL,PMI区别,内容
7.
大数据处理平台的内容,架构
Mapreduece基本特点
流式计算:过程,特性,处理流程
第7章 社交大数据
第二挑战(四部分),第三用户影响力(重要) 最大化的动机,性质,ci mo xing
(1)社交大数据
(2)国内社交网络大数据的应用
(3)国外社交网络大数据的应用
第8章 城市大数据
城市数据的特点。智慧城市的内容 2008,
未来趋势(没一点的内容)
技术框架,四层反馈
特点:三个
教育大数据:认知,知识跟踪,教育大数据的特点,
工业大数据:
5V,特征,新特征 多模态强关联,高通量
内容,特征
数据开放与共享:
开放数据的核心要素,八,五项原则。
法律政策规范:年份,数据主权与数据权力(图)(重点)
管理权,控制权,拒绝全
数据”、“信息”、“知识”是所有人共通使用的东西。共享的基础越大,产生的“智慧”就越能提高。智慧是对个别间题的解决方法,产生它的是人的创造性。而且,这种创造性是在大量数据、信息、知识的基础上培养起来的,应用到实践层面就是“智慧”。为了明确知识管理的意义,有必要正确理解“数据”“信息”、“知识”和“智慧”的区别。