.jpg)
书: https://pan.baidu.com/s/1untyKaWXt7RJt7udfaVI6A?pwd=44y8
笔记如下:
- Python数据科学基础:NumPy数组运算、Pandas数据处理与Matplotlib/Seaborn可视化技术。
- 数据清洗实战:处理缺失值(插补/删除)、异常值检测(IQR/Z-Score)与数据标准化方法。
- 统计分析入门:假设检验(p值、t检验)、相关分析(Pearson/Spearman)与置信区间计算。
- 机器学习流程:从特征工程(独热编码、分箱)到模型评估(交叉验证、ROC曲线)。
- 监督学习算法:
- 线性回归(正则化:Lasso/Ridge)
- 决策树(ID3/C4.5/CART)
- SVM(核函数选择)
- 无监督学习:K-Means聚类、DBSCAN密度聚类与PCA降维的数学原理。
- 深度学习入门:TensorFlow/Keras实现CNN图像分类、RNN文本生成。
- 自然语言处理:词袋模型、TF-IDF与BERT预训练模型的应用场景。
- 时间序列分析:ARIMA模型、Prophet预测与异常检测(STL分解)。
- 大数据技术栈:PySpark分布式计算、HDFS存储与Dask并行处理框架。
- SQL与NoSQL:对比关系型数据库(MySQL)与文档数据库(MongoDB)的查询优化。
- AB测试设计:样本量计算、双样本t检验与结果显著性解读。
- 特征工程进阶:
- 文本特征(Word2Vec)
- 图像特征(SIFT/HOG)
- 时序特征(滑动窗口统计)
- 模型解释性:SHAP值、LIME局部解释与特征重要性排序。
- 推荐系统:协同过滤(UserCF/ItemCF)与矩阵分解(ALS算法)。
- 图数据分析:NetworkX构建社交网络,PageRank算法原理。
- 自动化机器学习:AutoML工具(TPOT/Auto-sklearn)实现超参数优化。
- 数据产品开发:使用Flask/Dash构建数据可视化仪表盘。
- 数据科学伦理:GDPR合规性、偏差检测(FairML)与数据匿名化技术。
- 行业案例:
- 金融风控(信用评分卡)
- 医疗(影像识别)
- 零售(用户分群与销售预测)