一、AI基础概念与核心原理
1. 人工智能、机器学习、深度学习的关系?
答案:
三者是包含与被包含的关系,核心聚焦“让机器具备智能”的不同实现层次:
- 人工智能(AI):广义是让机器模拟人类智能(如推理、学习、决策)的技术总称,涵盖机器学习、深度学习、专家系统、强化学习等多个分支,目标是解决“智能行为”问题;
- 机器学习(ML):AI的核心分支,是实现AI的一种手段,指机器通过数据学习规律(无需显式编程),并利用规律预测或决策。核心是“从数据中自动学习模型”,不依赖手动设计规则(如传统编程);
- 深度学习(DL):机器学习的子集,以深度神经网络(DNN) 为核心,通过多层网络结构自动提取数据的层级特征(从底层像素/字符到高层语义),擅长处理海量高维数据(如图像、语音、文本)。
关系图示:AI ⊇ 机器学习 ⊇ 深度学习
应用区别:
- 机器学习:适用于中小规模数据、特征工程依赖人工(如决策树、SVM处理结构化数据);
- 深度学习:适用于大规模数据、自动特征提取(如CNN处理图像、Transformer处理文本)。
2. 监督学习、无监督学习、半监督学习、强化学习的区别?
答案:
核心差异在于数据标签情况和学习目标,具体对比:
| 学习类型 | 数据标签情况 | 核心目标 | 典型算法 | 应用场景 |
|---|---|---|---|---|
| 监督学习 | 全部数据有标签(输入→输出映射明确) | 学习输入到输出的映射规律,用于预测/分类 | 线性回归、逻辑回归、决策树、SVM、CNN/Transformer(有监督场景) | 图像分类、文本情感分析、房价预测 |
| 无监督学习 | 数据无标签 | 发现数据本身的内在结构(聚类、降维) | K-Means、DBSCAN、PCA、自编码器(AE) | 用户分群、异常检测、特征压缩 |
| 半监督学习 | 部分数据有标签,大部分无标签 | 利用少量标签数据引导模型学习,降低标签成本 | 半监督SVM、标签传播算法、半监督Transformer | 医疗影像标注(少量医生标注+大量未标注数据) |
| 强化学习 | 无显式标签,仅通过“奖励/惩罚”反馈 | 学习最优决策策略,最大化累积奖励 | Q-Learning、DQN、PPO、AlphaGo系列 | 游戏AI、机器人控制、自动驾驶决策 |
关键考点:
- 监督学习的“监督”指“标签监督模型训练”,模型需学习“输入→标签”的对应关系;
- 强化学习的核心是“试错学习”,智能体(Agent)与环境交互,通过反馈调整行为,无固定输入输出映射。
3. 过拟合与欠拟合的定义、原因及解决方法?
答案:
过拟合和欠拟合是模型训练的核心问题,本质是模型复杂度与数据规律的匹配度失衡:
(1)欠拟合(Underfitting)
- 定义:模型过于简单,无法捕捉数据中的规律,训练集和测试集误差都很大;
- 原因:模型复杂度不足(如用线性模型拟合非线性数据)、特征维度不够、训练迭代次数不足;
- 解决方法:
- 提升模型复杂度(如线性回归→多项式回归、决策树→随机森林);
- 增加有效特征(特征工程扩展维度);
- 延长训练迭代次数(避免早停);
- 减少正则化强度(若过度正则化导致欠拟合)。
(2)过拟合(Overfitting)
- 定义:模型过于复杂,不仅学习了数据中的规律,还拟合了训练集的噪声和异常值,导致训练集误差小、测试集误差大(泛化能力差);
- 原因:模型复杂度过高(如深层神经网络未加约束)、训练数据量少/有噪声、特征维度冗余;
- 解决方法(从数据、模型、训练三个维度):
- 数据层面:增加训练数据(如数据增强、合成数据)、清洗噪声数据;
- 模型层面:简化模型(如减少神经网络层数/神经元数、决策树剪枝)、正则化(L1/L2正则、Dropout、BatchNorm);
- 训练层面:早停(Early Stopping,监控验证集误差,误差上升时停止训练)、交叉验证(K-Fold CV)。
4. 正则化的作用与常见类型(L1、L2、Dropout)?
答案:
- 核心作用:限制模型复杂度,防止过拟合,提升模型泛化能力(让模型“简单且有效”)。
(1)L1正则化(L1 Regularization)
Loss = 原损失 + λ×Σ|w|
(2)L2正则化(L2 Regularization,权重衰减)
Loss = 原损失 + λ×Σw²
(3)Dropout(神经网络专属正则化)
- 原理:训练时随机“关闭”部分神经元(按概率p,如p=0.5),使模型无法过度依赖某几个神经元的特征,迫使网络学习更鲁棒的特征;
- 训练与测试差异:
- 训练:对激活值乘以1/(1-p)(保持输出期望不变);
- 测试:不关闭神经元,直接使用所有神经元输出;
- 适用场景:深度神经网络(如CNN、MLP),是防止过拟合的核心手段之一。
L1 vs L2 关键区别:
- L1:产生稀疏权重,特征选择;L2:权重平滑,无特征选择;
- L1对异常值更敏感(绝对值惩罚),L2更稳健(平方惩罚)。
5. 模型评估指标有哪些?(分类、回归、排序场景)
答案:
不同任务场景的评估指标不同,核心是“匹配任务目标”:
(1)分类任务(预测离散类别,如二分类/多分类)
- 核心指标:
- 准确率(Accuracy):正确预测的样本数/总样本数 → 适用于数据均衡场景;
- 精确率(Precision):预测为正类的样本中,实际为正类的比例(P = TP/(TP+FP)) → 关注“预测准不准”(如垃圾邮件检测,避免误判正常邮件);
- 召回率(Recall):实际为正类的样本中,被正确预测的比例(R = TP/(TP+FN)) → 关注“漏不漏”(如疾病诊断,避免漏诊);
- F1分数:精确率和召回率的调和平均(F1 = 2×P×R/(P+R)) → 平衡P和R,适用于数据不均衡场景;
- AUC-ROC:ROC曲线下面积(ROC曲线以FPR为横轴,TPR为纵轴) → 衡量模型区分正负类的能力,不受阈值影响;
- 适用场景:
- 数据均衡(如正类占50%):准确率;
- 数据不均衡(如正类占1%):精确率、召回率、F1、AUC(准确率会失真)。
(2)回归任务(预测连续值,如房价、温度)
- 核心指标:
- 均方误差(MSE):(1/n)×Σ(y_true - y_pred)² → 惩罚大误差(平方放大),适用于无异常值场景;
- 均方根误差(RMSE):√MSE → 与目标值同量级,直观反映误差大小;
- 平均绝对误差(MAE):(1/n)×Σ|y_true - y_pred| → 对异常值稳健(无平方放大);
- 决定系数(R²):衡量模型解释数据变异的能力(R²∈[0,1]),越接近1说明模型拟合效果越好。
(3)排序任务(如推荐系统、搜索排序)
- 核心指标:
- MAP(Mean Average Precision):平均精确率均值 → 衡量排序结果的相关性和排序质量;
- NDCG(Normalized Discounted Cumulative Gain):归一化折损累积增益 → 考虑排序位置(靠前的相关结果权重更高);
- Recall@k:前k个结果中包含的相关样本比例 → 衡量“前k个结果的召回能力”。
二、机器学习核心算法
1. 线性回归与逻辑回归的区别?
答案:
两者均为经典监督学习算法,但任务类型、模型输出、损失函数完全不同:
| 维度 | 线性回归(Linear Regression) | 逻辑回归(Logistic Regression) |
|---|---|---|
| 任务类型 | 回归任务(预测连续值) | 分类任务(预测离散类别,二分类为主) |
| 模型输出 | 连续值(如房价、得分,y∈(-∞,+∞)) | 概率值(y∈[0,1],表示属于正类的概率) |
| 核心函数 | 线性函数:y = w·x + b | 线性函数+Sigmoid激活:y = σ(w·x + b),其中σ(z) = 1/(1+e⁻ᵢ) |
| 损失函数 | 均方误差(MSE):Loss = Σ(y_true - y_pred)² | 交叉熵损失(Cross-Entropy):Loss = -Σ(y_true·log(y_pred) + (1-y_true)·log(1-y_pred)) |
| 优化目标 | 最小化预测值与真实值的平方误差 | 最大化分类概率的对数似然(等价于最小化交叉熵) |
| 适用场景 | 房价预测、销量预测、温度预测 | 二分类(如垃圾邮件检测、疾病诊断、用户流失预测) |
关键考点:
- 逻辑回归是“分类算法”而非“回归算法”,其核心是用Sigmoid函数将线性输出映射到[0,1]区间,实现概率预测;
- 逻辑回归可通过One-vs-Rest/One-vs-One扩展到多分类(如手写数字识别)。
2. 决策树的原理、优点及过拟合解决方法?
答案:
(1)核心原理
决策树是一种树形结构的分类/回归模型,通过“层层决策”实现预测:
- 树的组成:根节点(原始数据)、内部节点(特征判断条件,如“年龄>30?”)、叶节点(最终类别/回归值);
- 构建逻辑:递归选择“最优特征”划分数据,目标是让划分后的数据“纯度最高”(同类样本尽可能集中);
- 纯度衡量指标:
- 分类任务:信息增益(ID3算法)、信息增益比(C4.5算法)、Gini系数(CART算法,默认);
- 回归任务:均方误差(MSE)、平均绝对误差(MAE)。
(2)优点
- 可解释性强(树形结构直观,如“年龄>30且收入>50万→购买概率高”);
- 无需特征归一化(对特征尺度不敏感);
- 能处理离散型和连续型特征,无需复杂特征工程;
- 训练速度快,推理效率高。
(3)过拟合解决方法(决策树易过拟合,因模型可无限分裂至每个样本为叶节点)
- 剪枝(核心手段):
- 预剪枝:构建树时限制分裂(如限制树的最大深度、最小样本数、最小信息增益);
- 后剪枝:先构建完整树,再从叶节点向上剪枝(如移除对泛化能力无提升的分支);
- 随机森林(集成学习思路):多个决策树投票,降低单棵树的过拟合风险。
3. 随机森林与梯度提升树(GBDT/XGBoost/LightGBM)的区别?
答案:
三者均为集成学习算法(通过组合多个基模型提升性能),核心差异在于集成策略(Bagging vs Boosting):
(1)随机森林(Random Forest)
- 集成策略:Bagging(并行集成),基于多个独立决策树的“投票”结果;
- 构建过程:
- 对训练集进行Bootstrap采样(有放回抽样),生成多个子数据集;
- 每个子数据集训练一棵决策树(构建时随机选择部分特征,进一步降低相关性);
- 分类任务:多数投票;回归任务:均值输出;
- 核心优势:并行训练、鲁棒性强(对异常值不敏感)、不易过拟合;
- 缺点:对高维稀疏数据(如文本)效果不如Boosting,可解释性差于单棵决策树。
(2)梯度提升树(GBDT/XGBoost/LightGBM)
- 集成策略:Boosting(串行集成),基于“纠错”思路,后一棵树修正前一棵树的预测误差;
- 核心逻辑:
- 初始模型预测一个基准值(如回归任务的均值);
- 计算前一轮模型的残差(真实值-预测值),训练新树拟合残差;
- 加权融合所有树的结果(权重为学习率,控制单棵树的影响);
| 算法 | 核心优化点 | 优势 | 适用场景 |
|---|---|---|---|
| GBDT | 基于梯度下降最小化残差,基模型为CART树 | 基础Boosting算法,适合中小规模数据 | 传统结构化数据分类/回归 |
| XGBoost | 加入正则化(L1/L2)、支持缺失值处理、并行特征选择 | 精度高、泛化能力强,工业界常用 | Kaggle竞赛、风控建模 |
| LightGBM | 基于直方图分箱、梯度单边采样、Leaf-wise生长 | 训练速度快、内存占用低,支持大规模数据 | 大数据场景、实时预测 |
(3)核心区别总结
- 集成方式:随机森林并行(独立树),Boosting串行(依赖前树);
- 过拟合控制:随机森林靠“投票”和“特征随机”,Boosting靠“正则化”和“学习率”;
- 性能:Boosting系列(XGBoost/LightGBM)在结构化数据上精度更高,随机森林更稳健。
4. SVM(支持向量机)的核心原理与核函数作用?
答案:
(1)核心原理
SVM是一种二分类算法,核心目标是找到最优分离超平面,使两类样本的“间隔最大化”:
- 支持向量:距离超平面最近的样本点(决定超平面的位置,其他样本对超平面无影响);
- 最大间隔:超平面到两类支持向量的距离之和最大,间隔越大,模型泛化能力越强;
- 线性可分vs线性不可分:
- 线性可分:直接找到最优超平面;
- 线性不可分:通过核函数将数据映射到高维特征空间,使数据在高维空间线性可分。
(2)核函数的作用与常见类型
- 核心问题:低维空间线性不可分的数据,高维空间可能线性可分,但直接映射到高维会导致“维度灾难”(计算复杂度爆炸);
- 核函数作用:无需显式将数据映射到高维,而是通过核函数直接计算高维空间中样本的内积,降低计算复杂度(“核技巧”);
- 常见核函数:
- 线性核(Linear Kernel):K(x1,x2) = x1·x2 → 适用于线性可分数据,计算快;
- 多项式核(Polynomial Kernel):K(x1,x2) = (x1·x2 + c)^d → 适用于低维非线性数据;
- RBF核(径向基核,Gaussian Kernel):K(x1,x2) = exp(-γ||x1-x2||²) → 适用于高维非线性数据(如文本、图像),应用最广泛;
- Sigmoid核:K(x1,x2) = tanh(αx1·x2 + c) → 模拟神经网络,较少使用。
(3)优点与缺点
- 优点:泛化能力强(最大间隔思想)、适合高维数据(如文本TF-IDF特征)、对小样本友好;
- 缺点:训练速度慢(对大规模数据不友好)、可解释性差、参数调优复杂(如γ、正则化参数C)。
三、深度学习核心技术
1. CNN(卷积神经网络)的核心原理与关键组件?
答案:
CNN是专门处理网格结构数据(如图像、语音频谱)的深度学习模型,核心优势是“局部感知、参数共享、层级特征提取”。
(1)核心原理
- 局部感知:人类视觉对图像的感知是局部的(如先识别边缘、纹理,再识别物体),CNN通过卷积核(Filter)提取局部特征(如3×3卷积核覆盖图像局部区域);
- 参数共享:同一卷积核在图像所有位置使用相同参数,大幅减少模型参数(如512×512图像用3×3卷积核,仅需9个参数,而非512×512×9);
- 层级特征:浅层卷积提取底层特征(边缘、纹理),深层卷积提取高层语义特征(如物体轮廓、类别特征)。
(2)关键组件及作用
| 组件 | 核心作用 | 关键参数/原理 |
|---|---|---|
| 卷积层(Conv Layer) | 提取局部特征(如边缘、纹理、物体部件) | 卷积核大小(3×3/5×5)、步长(Stride,默认1)、填充(Padding,Same/Valid)、输出通道数(Filters) |
| 激活函数层 | 引入非线性,使模型拟合复杂规律 | ReLU(最常用,f(x)=max(0,x),缓解梯度消失)、Leaky ReLU、GELU(Transformer中常用) |
| 池化层(Pooling Layer) | 降维(减少参数和计算量)、保留关键特征 | 最大池化(Max Pooling,保留局部最大值,增强鲁棒性)、平均池化(Average Pooling,保留全局信息),核大小通常2×2、步长2 |
| 全连接层(FC Layer) | 将卷积提取的特征映射为类别概率 | 将高维特征 flatten 为一维向量,通过矩阵乘法输出类别得分 |
| BatchNorm(批归一化) | 加速训练收敛、缓解梯度消失、防止过拟合 | 对每批数据标准化(均值=0,方差=1),引入可学习参数(γ、β)调整分布 |
| Dropout层 | 防止过拟合(神经网络专属正则化) | 训练时随机关闭部分神经元,测试时恢复 |
(3)经典CNN架构演进
- LeNet-5(1998):CNN开山之作,用于手写数字识别,包含卷积层、池化层、全连接层;
- AlexNet(2012):深度学习爆发标志,8层网络,使用ReLU激活、Dropout、LRN,ImageNet分类准确率大幅提升;
- VGGNet(2014):采用3×3小卷积核堆叠,加深网络深度(16/19层),增强特征提取能力;
- ResNet(2015):引入残差连接(Skip Connection),解决深层网络梯度消失问题,可训练百层以上网络;
- MobileNet(2017):采用深度可分离卷积(Depthwise Separable Conv),减少参数和计算量,适用于移动设备。
2. RNN、LSTM、GRU的区别与应用场景?
答案:
三者均为处理序列数据(如文本、语音、时序信号)的循环神经网络,核心是“记忆历史信息”,但解决梯度消失的能力不同:
(1)RNN(循环神经网络)
- 核心结构:包含循环单元(Hidden State),每个时刻的输出依赖当前输入和上一时刻的隐藏状态(H_t = f(W·X_t + U·H_{t-1} + b));
- 优点:能捕捉序列数据的时序依赖(如文本中的上下文关系);
- 缺点:梯度消失/梯度爆炸(训练深层RNN时,梯度在反向传播中衰减或放大,无法学习长期依赖,如长句子中前后单词的关联)。
(2)LSTM(长短期记忆网络)
- 核心改进:针对RNN的长期依赖问题,引入门控机制(输入门、遗忘门、输出门)和细胞状态(Cell State) ,控制信息的存储、遗忘和输出:
- 遗忘门:决定丢弃哪些历史信息;
- 输入门:决定哪些新信息存入细胞状态;
- 输出门:决定当前时刻输出哪些信息;
- 细胞状态:类似“传送带”,信息在上面流动时几乎无衰减,解决梯度消失;
- 优点:能有效学习长期依赖(如长文本、长时序数据);
- 缺点:参数多、计算复杂度高、训练速度慢。
(3)GRU(门控循环单元)
- 核心改进:简化LSTM的门控机制,将输入门和遗忘门合并为“更新门”,移除细胞状态,仅保留隐藏状态:
- 更新门:决定保留多少历史信息和新信息;
- 重置门:决定是否忽略历史信息,重新学习;
- 优点:参数比LSTM少(约减少1/3),训练速度更快,同样能捕捉长期依赖;
- 缺点:对极长序列的长期依赖捕捉能力略弱于LSTM。
(4)对比与应用场景
| 模型 | 参数复杂度 | 长期依赖捕捉 | 训练速度 | 适用场景 |
|---|---|---|---|---|
| RNN | 低 | 弱(短序列) | 快 | 短序列数据(如短语情感分析) |
| LSTM | 高 | 强(长序列) | 慢 | 极长序列(如长文本翻译、语音识别) |
| GRU | 中 | 中-强 | 中-快 | 平衡速度与效果(如文本摘要、时序预测) |
3. Transformer的核心原理与注意力机制?
答案:
Transformer是2017年提出的基于“自注意力机制”的模型,彻底抛弃RNN/LSTM的循环结构,采用全并行计算,成为NLP、CV等领域的基础架构(如BERT、GPT、ViT)。
(1)核心创新
- 完全基于自注意力机制(Self-Attention),无需循环/卷积,可并行处理序列数据(大幅提升训练速度);
- 多头注意力(Multi-Head Attention),捕捉不同维度的语义关联(如语法关联、语义关联);
- 位置编码(Positional Encoding),补充序列的位置信息(因自注意力无时序依赖,需手动注入位置)。
(2)自注意力机制(Self-Attention)原理
自注意力机制的核心是“计算序列中每个位置与所有位置的关联程度(注意力权重),并加权求和得到该位置的特征”,步骤如下:
- 对每个输入向量X生成三个向量:查询向量Q(Query)、键向量K(Key)、值向量V(Value)(通过三个不同的线性变换得到);
- 计算注意力得分:Q与K的转置矩阵相乘,再除以√d_k(d_k为K的维度,避免得分过大);
- 对得分进行Softmax归一化,得到注意力权重(权重之和为1,代表每个位置的重要性);
- 注意力权重与V相乘,得到该位置的自注意力输出(加权融合所有位置的信息)。
(3)多头注意力(Multi-Head Attention)
- 原理:将Q、K、V通过多个线性变换分成h组(头数h,如8),每组独立计算自注意力,最后将h组输出拼接,通过线性变换得到最终结果;
- 作用:不同头捕捉不同类型的关联(如一个头关注语法结构,一个头关注语义相似性),提升模型表达能力。
(4)Transformer整体结构
- 编码器(Encoder):由N层“多头注意力+前馈神经网络(FFN)”组成,输入为源序列(如翻译的源语言文本),输出为上下文特征;
- 解码器(Decoder):由N层“掩码多头注意力+多头注意力+FFN”组成,输入为目标序列(如翻译的目标语言文本),输出为预测序列;
- 位置编码:通过正弦/余弦函数生成位置向量,与输入向量相加,注入位置信息。
(5)应用场景
- NLP领域:机器翻译(Transformer原论文)、文本分类(BERT)、生成式AI(GPT系列)、问答系统;
- CV领域:图像分类(ViT,Vision Transformer)、目标检测(DETR)、图像生成;
- 多模态领域:图文生成(DALL-E)、跨模态检索。
4. 生成式AI(如GPT、Diffusion Model)的核心原理?
答案:
生成式AI是能“创造新数据”(如文本、图像、音频)的AI模型,核心是学习数据的分布规律,再从分布中采样生成新样本,主流技术路线包括自回归模型(如GPT) 和扩散模型(如Stable Diffusion) 。
(1)自回归模型(代表:GPT系列)
- 核心原理:基于“因果语言模型(CLM)”,通过前序 tokens 预测下一个 token,逐词生成序列(如“我喜欢”→预测“编程”→“我喜欢编程”→预测“,”→…);
- 关键技术:
- 解码器-only Transformer:仅使用Transformer的解码器结构,通过掩码注意力(Masked Attention)确保预测时只能看到前序 tokens,无法看到后续 tokens;
- 预训练+微调:预训练阶段在海量文本上学习语言规律(如语法、语义、逻辑),微调阶段针对具体任务(如文本生成、问答)优化;
- 大参数量+海量数据:GPT-3(1750亿参数)、GPT-4(万亿级参数)通过大规模参数量和数据提升生成质量和逻辑连贯性。
(2)扩散模型(Diffusion Model,代表:Stable Diffusion、DALL-E 2)
- 核心原理:模拟“扩散过程”(从清晰样本到噪声)和“逆扩散过程”(从噪声恢复清晰样本),最终从纯噪声中生成新样本:
- 前向扩散(Forward Diffusion):逐步向清晰样本(如图像)添加高斯噪声,T步后样本变为纯噪声;
- 逆扩散(Reverse Diffusion):训练模型学习从噪声中恢复清晰样本的规律(预测每一步的噪声,逐步去除噪声);
- 生成过程:输入纯噪声,通过逆扩散过程逐步生成清晰样本(如图像、文本)。
- 关键优势:生成质量高(图像细节丰富)、支持文本引导生成(如输入“蓝色天空下的雪山”,生成对应图像);
- 技术细节:
- U-Net架构:作为逆扩散过程的核心模型,用于预测噪声;
- 文本编码器(如CLIP):将文本提示(Prompt)转换为特征向量,引导生成过程(文本→图像映射)。
(3)生成式AI的核心挑战
- 逻辑一致性:长文本生成中避免前后矛盾(如GPT生成故事时角色设定不一致);
- 事实准确性:避免生成虚假信息(如错误的历史事件、科学知识);
- 可控性:精准控制生成内容的风格、长度、结构(如生成指定格式的报告)。
四、AI框架与工程实践
1. TensorFlow与PyTorch的区别?
答案:
两者是目前最主流的深度学习框架,核心差异在于设计理念、易用性、生态和应用场景:
| 维度 | TensorFlow(Google) | PyTorch(Meta) |
|---|---|---|
| 设计理念 | 静态计算图(Graph Execution),先定义图再执行 | 动态计算图(Eager Execution),即时执行即时反馈 |
| 易用性 | 入门门槛高,语法较繁琐(早期),2.0+支持动态图 | 入门门槛低,Pythonic语法,调试方便(如print变量) |
| 生态系统 | 生态完善,支持部署场景丰富(TensorFlow Lite、TensorRT、TF Serving) | 生态快速发展,学术研究中更流行,支持TorchServe、ONNX部署 |
| 并行计算 | 内置分布式训练支持(tf.distribute) | 支持分布式训练(torch.distributed),API更简洁 |
| 适用场景 | 工业界部署(如移动端、云端推理)、大规模生产环境 | 学术研究(如论文复现)、快速原型开发、中小规模生产 |
| 社区支持 | 企业支持强(Google),文档全面 | 社区活跃,开源贡献者多,论文复现代码丰富 |
关键考点:
session.run()
2. 数据预处理的核心步骤与方法?
答案:
数据预处理是AI建模的关键步骤(“数据决定模型上限”),核心目标是“清洗数据、标准化特征、提升数据质量”,适用于机器学习和深度学习场景:
(1)核心步骤
-
数据清洗:处理异常值、缺失值、重复值;
- 缺失值处理:数值型(均值/中位数/众数填充、插值法)、分类型(众数填充、“未知”类别)、删除缺失过多的样本/特征;
- 异常值处理:基于统计方法(如3σ原则、IQR方法)识别,处理方式为删除、修正或单独标记;
- 重复值处理:直接删除重复样本(避免模型过度拟合重复数据)。
-
特征工程:
- 特征选择:筛选有效特征(如通过相关性分析、互信息、L1正则剔除冗余特征);
- 特征转换:
- 数值型特征:归一化(Min-Max Scaling,映射到[0,1],适用于距离类算法如SVM)、标准化(Standard Scaling,均值=0方差=1,适用于梯度下降类算法);
- 分类型特征:独热编码(One-Hot Encoding,适用于无顺序关系的类别如颜色)、标签编码(Label Encoding,适用于有顺序关系的类别如等级);
- 特征构建:创建新特征(如“年龄+收入”组合特征、文本的TF-IDF特征、图像的HOG特征)。
-
数据划分:
- 划分比例:训练集(70%-80%)、验证集(10%-15%)、测试集(10%-15%);
- 注意事项:保证划分后的数据分布一致(如分层抽样,避免测试集类别失衡);测试集需独立于训练过程(不参与特征选择、参数调优)。
(2)深度学习专属预处理
- 图像数据:数据增强(旋转、翻转、裁剪、缩放、亮度调整,扩充训练数据,防止过拟合)、归一化(如除以255将像素值映射到[0,1]);
- 文本数据:分词(如中文jieba分词、英文NLTK分词)、词嵌入(Word2Vec、GloVe、BERT嵌入)、序列填充/截断(统一序列长度);
- 时序数据:滑窗采样(如用前7天数据预测第8天温度)、标准化(按时间序列分段标准化,避免分布偏移)。
3. 模型部署的核心流程与常用工具?
答案:
模型部署是将训练好的AI模型(如PyTorch/TensorFlow模型)部署到生产环境(如服务器、移动端、嵌入式设备),实现低延迟、高吞吐量推理的过程。
(1)核心流程
-
模型优化:降低模型复杂度,提升推理速度(不显著损失精度);
- 模型压缩:量化(INT8/INT4量化,将FP32权重转为低精度,减少内存占用和计算量)、剪枝(移除冗余权重和神经元)、知识蒸馏(用大模型指导小模型训练);
- 结构优化:用轻量级模型替换复杂模型(如MobileNet替换VGG、DistilBERT替换BERT)。
-
模型格式转换:将训练框架模型(.pth、.pb)转换为部署友好的格式;
- ONNX(Open Neural Network Exchange):通用模型格式,支持跨框架转换(PyTorch/TensorFlow→ONNX),是部署的中间标准;
- TensorRT:NVIDIA专属格式,优化GPU推理(支持量化、层融合);
- TensorFlow Lite:TensorFlow移动端部署格式,支持移动端GPU/CPU推理;
- OpenVINO:Intel专属格式,优化Intel CPU/GPU推理。
-
推理引擎部署:选择适配硬件的推理引擎,部署到目标环境;
- 云端部署:用TensorRT(GPU)、OpenVINO(CPU)、TF Serving(TensorFlow模型)、TorchServe(PyTorch模型)搭建推理服务,提供HTTP/GRPC接口;
- 移动端/嵌入式部署:用TensorFlow Lite、PyTorch Mobile部署到手机、边缘设备(如树莓派);
- 实时部署:结合Docker容器化部署,Kubernetes编排,实现高可用和弹性扩展。
-
监控与迭代:监控推理性能(延迟、吞吐量)和精度,发现问题后迭代优化模型。
(2)常用部署工具
| 工具 | 支持框架 | 适配硬件 | 核心优势 |
|---|---|---|---|
| ONNX | PyTorch、TensorFlow、MXNet | 通用 | 跨框架统一格式,部署中间件 |
| TensorRT | ONNX、TensorFlow | NVIDIA GPU | GPU推理优化(量化、层融合),低延迟 |
| OpenVINO | ONNX、TensorFlow | Intel CPU/GPU | Intel硬件专用优化,适合边缘计算 |
| TensorFlow Lite | TensorFlow、ONNX | 移动端、嵌入式设备 | 轻量级,低内存占用 |
| PyTorch Mobile | PyTorch、ONNX | 移动端、嵌入式设备 | 与PyTorch无缝衔接,支持动态图模型 |
| TF Serving | TensorFlow | 云端服务器 | 高吞吐量,支持模型版本管理、负载均衡 |
4. 大模型微调(Fine-tuning)的核心方法?
答案:
大模型(如BERT、GPT、LLaMA)预训练后参数规模庞大(数十亿~万亿级),全量微调(Full Fine-tuning)成本高(需大量GPU资源),因此工业界和学术界主要采用高效微调方法,仅微调部分参数:
(1)LoRA(Low-Rank Adaptation)
- 核心原理:在Transformer的注意力层(Q/K/V矩阵)中插入低秩矩阵(A和B),仅微调低秩矩阵,冻结原模型参数;
- 原模型权重:W(d×d,d为隐藏层维度);
- 插入低秩矩阵:W’ = W + A×B^T(A:d×r,B:r×d,r为低秩维度,通常r=8~64,远小于d);
- 优势:参数效率极高(微调参数仅占原模型的0.1%~1%)、训练成本低(单GPU即可)、多个任务的LoRA矩阵可共享原模型,实现多任务部署。
(2)QLoRA(Quantized LoRA)
- 核心改进:在LoRA基础上,对原模型进行4-bit/8-bit量化(如将FP16权重量化为INT4),进一步降低内存占用;
- 优势:支持在消费级GPU(如RTX 3090)上微调万亿级参数模型(如LLaMA 2 70B),成本极低;
- 适用场景:资源有限的场景(如个人开发者、中小企业)。
(3)Prefix Tuning(前缀微调)
- 核心原理:在输入序列前添加可学习的“前缀向量”(Prefix Embedding),仅微调前缀向量,冻结原模型参数;
- 优势:适用于生成式模型(如GPT),不改变模型解码器结构,生成效果好;
- 缺点:前缀向量长度需调优,参数效率略低于LoRA。
(4)Adapter Tuning(适配器微调)
- 核心原理:在Transformer的每一层(注意力层、FFN层)插入小型神经网络(Adapter,如2层MLP),仅微调Adapter参数,冻结原模型;
- 优势:结构灵活,可适配不同模型架构;
- 缺点:微调参数比LoRA多,内存占用略高。
(5)高效微调方法对比
| 方法 | 微调参数占比 | 训练成本 | 适用模型类型 | 核心优势 |
|---|---|---|---|---|
| LoRA | 0.1%~1% | 低 | 编码器/解码器模型 | 参数效率最高,训练速度快 |
| QLoRA | 0.1%~1% | 极低 | 大参数量模型(≥70B) | 支持消费级GPU微调,成本最低 |
| Prefix Tuning | 1%~5% | 中 | 解码器模型(如GPT) | 生成式任务效果好 |
| Adapter Tuning | 5%~10% | 中-高 | 通用 | 结构灵活,适配性强 |
五、前沿技术与面试趋势
1. 大模型的“涌现能力”是什么?
答案:
- 定义:大模型(通常参数规模≥100亿)在达到一定参数阈值后,突然表现出的“小模型不具备的复杂能力”,如逻辑推理、代码生成、多模态理解等,且能力随参数规模增长呈“阶梯式提升”(而非线性);
- 典型表现:
- 逻辑推理:解决数学题、复杂逻辑题(如“如果A→B,B→C,那么A→C”);
- 代码生成:根据自然语言描述编写复杂代码(如Python、Java函数);
- 多模态理解:跨文本、图像、语音的语义关联(如根据图像内容生成描述文本);
- 少样本/零样本学习:仅需少量示例(甚至无示例)即可完成新任务(如零样本翻译);
- 核心原因:尚未完全明确,主流假说包括“模型参数规模扩大后,捕捉到了数据中的深层语义和世界知识”“多层网络结构实现了复杂函数的拟合”。
2. 多模态大模型(如GPT-4V、DALL-E)的核心原理?
答案:
多模态大模型是能处理/生成“文本、图像、音频、视频”等多种数据类型的模型,核心是“实现不同模态数据的统一表示和跨模态关联”:
(1)核心技术路线
- 统一编码器架构:用同一个Transformer编码器处理不同模态数据,通过“模态嵌入”区分数据类型;
- 例如:文本→文本嵌入+位置编码,图像→图像补丁嵌入(如ViT将图像分割为16×16补丁),两者拼接后输入Transformer,学习统一特征;
- 跨模态注意力机制:通过注意力机制捕捉不同模态数据的关联(如文本“红色苹果”与图像中红色圆形区域的关联);
- 对比学习预训练:预训练阶段通过“模态对齐”任务(如文本-图像匹配、跨模态检索),让模型学习不同模态的语义一致性;
- 生成式解码器:基于统一特征,用Transformer解码器生成目标模态数据(如根据文本生成图像、根据图像生成文本)。
(2)典型应用
- 图文生成:DALL-E、Midjourney(文本→图像);
- 多模态理解:GPT-4V(图像+文本→回答问题,如分析图像内容、解决图像中的数学题);
- 跨模态翻译:语音→文本、文本→语音、图像→语音。
3. 强化学习(RL)的核心应用场景?
答案:
强化学习的核心是“通过与环境交互学习最优决策策略”,适用于“无显式标签、需序列决策”的场景,典型应用包括:
- 游戏AI:AlphaGo(围棋)、AlphaStar(星际争霸)、DOTA 2 AI,通过与环境(游戏)交互学习最优操作;
- 机器人控制:工业机器人抓取、自动驾驶决策(如车道保持、避障)、无人机路径规划,通过试错学习适应复杂环境;
- 推荐系统:动态推荐策略(如根据用户实时反馈调整推荐内容),最大化用户长期留存;
- 金融领域:量化交易策略(根据市场波动调整买卖时机)、风险控制;
- 医疗领域:个性化治疗方案(根据患者病情变化调整治疗策略)。
4. AI面试的核心趋势与准备建议?
答案:
(1)面试趋势
- 基础扎实是前提:机器学习/深度学习核心原理(如梯度下降、注意力机制)仍是高频考点,避免“只知框架不知原理”;
- 工程能力重视提升:除了算法,还会考察数据预处理、模型部署、性能优化(如TensorRT量化、LoRA微调),尤其是工业界面试;
- 大模型相关问题成为热点:大模型原理、微调方法(LoRA/QLoRA)、涌现能力、多模态、伦理安全(如AI幻觉、偏见);
- 项目经验深度考察:不仅问“做了什么”,还会问“为什么选这个算法”“如何解决过拟合/数据不平衡”“模型优化的具体步骤和效果”。
(2)准备建议
- 理论层面:
- 吃透核心算法(线性回归、决策树、CNN、Transformer)的原理、公式推导(如梯度下降的更新公式)、优缺点;
- 关注前沿技术(大模型、多模态、强化学习),理解核心概念和应用场景;
- 工程层面:
- 熟练使用至少一种框架(PyTorch/TensorFlow),能独立完成“数据预处理→模型训练→部署”全流程;
- 掌握常用工具(如数据处理用Pandas/Numpy、可视化用Matplotlib/Seaborn、部署用ONNX/TensorRT);
- 项目层面:
- 准备1-2个高质量项目(如大模型微调、图像分类系统、推荐系统),梳理清楚“问题→方案→实现→优化→结果”的完整逻辑;
- 提前思考项目中的难点和解决方案(如“如何处理数据不平衡”“如何提升模型推理速度”);
- 思维层面:
- 培养“算法选型思维”(根据任务场景、数据规模选择合适算法);
- 锻炼“问题排查思维”(如模型精度低、推理慢的可能原因及解决思路)。
六、总结
本文覆盖AI面试的核心考点,从基础概念、机器学习算法、深度学习技术、框架工程实践到前沿趋势,每个模块均结合面试高频问题、详细原理解析和实战应用场景,兼顾理论深度与工程落地能力。
AI面试的核心是“原理+实践”的结合:基础算法(如逻辑回归、CNN)需理解底层原理和公式推导,工程部分(如模型部署、大模型微调)需掌握工具使用和实际问题解决,前沿技术(如大模型、多模态)需了解核心概念和行业应用。
建议面试前重点梳理“核心算法原理→项目实战细节→前沿技术理解”的知识体系,同时结合自身项目经验,准备“技术难点+解决方案+优化效果”的案例,展现自身的技术深度和工程能力。
如需获取本文面试题的PDF版本或配套实战代码(如LoRA微调、模型部署示例),可留言获取,方便离线复习!

