1. 环境说明#

  1. 所有的内容均使用 Jupyter Notebook 书写并运行,便于理解和复现。你可以使用本地 Jupyter Notebook 或者 Google Colab 运行代码。

  2. 除单独说明的章节外,所有代码均在 Python 3.10 环境下运行通过。一般情况下,代码可以在相关 package 的主流版本下运行,如果运行报错,可以尝试单独安装以下版本,部分库的安装也会在相应的章节中有提示。由于依赖较多且个别库的依赖之间存在版本冲突,所以不提供统一的 requirements.txt 文件。

    numpy == 1.26.1
    scipy == 1.11.3
    pandas == 2.1.2
    seaborn == 0.13.0
    matplotlib == 3.8.1
    scikit-learn == 1.3.2
    statsmodels == 0.11.0
    jieba == 0.42.1
    gensim == 4.3.2
    hdbscan == 0.8.33
    graphviz == 0.20.1
    mlxtend == 0.23.0
    tensorflow == 2.14.0
    nltk == 3.8.1
    flair == 0.13.0
    onnx == 1.15.0
    
  3. 深度学习的章节,对数据量和网络结构进行了简化,绝大部分都可以无需 GPU 运行,便于更多人学习。需要 GPU 的内容会在相应的章节中有说明。

  4. 因跨域设置,部分数据集 Pandas 可能无法通过链接直接加载,你可以手动复制链接到浏览器下载数据集到本地后,再使用本地路径进行加载。