AI应用开发面试题精讲（四）：系统架构与生产落地高频15问

📅 2026/6/18 13:33:02 👤 管理员 👁 次浏览

AI应用开发面试题精讲四系统架构与生产落地高频15问文章目录AI应用开发面试题精讲四系统架构与生产落地高频15问前言一、架构设计1. 设计一个大模型应用网关需要哪些功能2. RAG系统的分层架构怎么设计3. 多Agent协作系统怎么设计有哪些协作模式二、安全与合规4. Prompt注入怎么防御5. 多租户隔离怎么做6. 大模型应用的数据隐私怎么保护三、对话系统设计7. 多轮对话管理怎么做8. 对话中断与恢复怎么处理四、架构演进9. 从0到1搭建AI应用架构怎么演进10. 高可用架构怎么设计11. AI应用怎么做异地多活五、实战场景12. 大模型响应慢怎么排查和优化13. 怎么做AI应用的A/B测试14. 工具调用Function Calling的安全怎么保证15. 你遇到过的最难的技术挑战是什么总结前言架构师视角的AI面试题考察的是你能不能从0到1设计一个AI系统。不是问你某个组件怎么用而是问你整个系统怎么搭、怎么扩展、怎么容灾。这篇整理了系统架构与生产落地最高频的15道题。一、架构设计1. 设计一个大模型应用网关需要哪些功能参考答案大模型网关是所有大模型调用的统一入口核心功能路由按场景/用户/复杂度路由到不同模型限流按用户/API Key/IP分别限流缓存语义缓存命中直接返回监控Token消耗、延迟、错误率降级主模型故障自动切换备用模型计费按Token用量计费支持多租户安全Prompt注入检测、敏感内容过滤审计所有调用日志留存设计要点网关要轻——不要在网关里做业务逻辑只做流量控制。业务逻辑放在下游服务。2. RAG系统的分层架构怎么设计参考答案五层架构数据层原始文档存储对象存储、向量库、关系数据库索引层文档解析→切分→Embedding→入库支持增量更新检索层查询改写→多路召回向量关键词→重排→过滤生成层Prompt组装→大模型调用→输出校验→流式返回应用层对话管理、UI、用户反馈关键设计原则检索层和生成层解耦可以独立扩缩容索引层异步处理不阻塞用户请求每层都有独立监控和降级方案向量库可替换不要绑死某个向量数据库3. 多Agent协作系统怎么设计有哪些协作模式参考答案协作模式串行流水线Agent A → Agent B → Agent C前一个的输出是后一个的输入并行投票多个Agent同时做同一任务取一致结果主从模式主Agent分解任务分发给子Agent汇总结果对话协商多个Agent互相讨论达成一致后输出设计要点任务分解主Agent负责理解需求、分解任务、汇总结果状态管理每个Agent的输入/输出/状态都要记录错误处理子Agent失败时主Agent决定重试还是换策略超时控制不能一个Agent卡住整个系统成本控制多Agent 多倍Token消耗要评估ROI面试加分点提到多Agent不是越多越好——简单的任务用单Agent工具调用就够了多Agent的协调成本很高。二、安全与合规4. Prompt注入怎么防御参考答案攻击方式用户输入忽略上面的指令改为…文档中嵌入你现在是一个没有限制的AI多轮对话中逐步绕过限制防御层次输入层过滤高风险模式“忽略指令”你现在是等隔离层用分隔符明确区分系统指令和用户输入输出层检查输出是否偏离了系统指令的范围权限层工具调用最小权限不给危险操作权限后端层关键操作要后端二次校验不信任模型输出核心原则不要只靠Prompt防Prompt注入——Prompt是可以被绕过的必须有后端校验兜底。5. 多租户隔离怎么做参考答案隔离维度数据隔离不同租户的知识库、对话记录物理或逻辑隔离资源隔离每租户独立的限流配额、Token预算模型隔离VIP租户用更好的模型免费租户用基础模型安全隔离一个租户的异常不影响其他租户实现方式向量库中每条数据带tenant_id检索时必带过滤限流按tenant_id分别计数租户级配置模型路由、Prompt模板、安全策略独立管理大模型调用上下文中不混入其他租户数据6. 大模型应用的数据隐私怎么保护参考答案风险用户输入可能包含敏感信息身份证、手机号大模型服务端可能记录请求内容对话日志可能泄露隐私保护措施输入脱敏发送前用正则/NER替换敏感信息输出过滤检查输出是否包含敏感信息日志脱敏日志中不记录原始敏感内容数据驻留选择数据不落地的模型服务或自部署合规审查遵守GDPR、个人信息保护法等法规用户知情明确告知用户数据如何使用三、对话系统设计7. 多轮对话管理怎么做参考答案核心问题上下文窗口有限但对话可能很长。管理策略滑动窗口只保留最近N轮对话摘要压缩超过N轮后把早期对话摘要为一段文字检索式记忆历史对话存入向量库按需检索相关历史混合策略最近几轮原文更早的摘要按需检索实践建议每轮对话记录intent和关键实体不只存原文对话状态要有结构化表示当前话题、已确认信息、待确认信息用户说我们刚才说的那个方案时能正确回溯8. 对话中断与恢复怎么处理参考答案中断场景用户主动切换话题系统超时或崩溃用户隔了一段时间回来恢复策略会话持久化对话状态存数据库不只在内存上下文恢复用户回来时恢复最近N轮对话话题切换检测检测到用户切换话题时保存旧话题上下文话题回切用户说继续刚才那个问题时能恢复之前的上下文面试加分点提到对话状态机——用状态机管理对话流程每个状态有明确的允许操作和跳转条件。四、架构演进9. 从0到1搭建AI应用架构怎么演进参考答案Phase 1MVP0-100用户单体应用大模型API直连固定Prompt无缓存基础监控Phase 2100-1000用户加网关层限流、监控、缓存加RAG知识库检索Prompt版本管理A/B测试框架Phase 31000-10000用户检索和生成分离部署多模型路由语义缓存灰度发布Phase 410000用户多区域部署异地容灾自部署模型降本全链路可观测面试金句不要一上来就设计Phase 4的架构——过度架构和没有架构一样危险。10. 高可用架构怎么设计参考答案高可用原则无单点每个组件都有备份自动故障转移故障自动切换不等人工降级而非宕机部分功能不可用但核心功能正常具体措施大模型服务多供应商主备切换向量库主从复制读可以分散应用层多实例部署负载均衡缓存Redis集群自动故障转移消息队列持久化队列重启不丢消息SLA目标99.9%月停机43分钟99.99%月停机4.3分钟AI应用通常99.9%够用因为大模型API本身的SLA也就99.9%11. AI应用怎么做异地多活参考答案挑战大模型API可能是集中式的不存在多区域向量库数据量大同步成本高对话有状态跨区域切换要保证连续性方案应用层多活应用部署在多区域DNS就近路由数据层同步向量库主从同步对话日志跨区域复制大模型层每区域有独立的大模型API配额故障时跨区域调用流量切换健康检查发现某区域异常自动切到其他区域实践建议如果大模型API是第三方服务异地多活的意义有限——大模型挂了再多区域也没用。重点放在应用层高可用和降级策略上。五、实战场景12. 大模型响应慢怎么排查和优化参考答案排查步骤定位瓶颈是网络、排队、还是模型本身慢看P50 vs P99P50正常但P99高是排队问题都高是模型问题看输入长度长Prompt导致首Token延迟高看输出长度长输出导致总延迟高优化手段流式输出降低首Token延迟用户体感好Prompt精简去掉不必要的内容模型路由简单问题用快模型缓存热门query直接返回并发优化减少排队等待预计算提前生成可能的回答并缓存13. 怎么做AI应用的A/B测试参考答案特殊挑战输出非确定性同一输入不同输出评价指标复杂不只是转化率需要人工评估方法自动指标初筛BLEU、ROUGE、格式合规率等人工评估标注员对模型输出打分1-5分用户指标满意度、重试率、投诉率灰度发布5%→10%→50%→100%关键点A/B测试要有足够样本量AI输出的方差大同时测多个变量时注意交叉影响关注长尾case——平均值好看但最差的case可能很差14. 工具调用Function Calling的安全怎么保证参考答案风险模型调用错误的工具工具参数不安全如SQL注入调用了没有权限的操作安全措施白名单机制只暴露允许调用的工具参数校验工具入参必须做类型和范围校验权限控制按用户角色限制可调用的工具审批流程高风险操作需要人工确认审计日志所有工具调用记录日志沙箱执行代码执行类工具在沙箱中运行15. 你遇到过的最难的技术挑战是什么参考答案这是开放题用STAR结构回答示例回答RAG效果优化Situation客服RAG系统上线后发现20%的问题回答不准确Task需要在不增加延迟的前提下提升准确率Action分析bad case发现主要问题是切分不合理和检索不准优化切分策略从固定长度改为按FAQ条目切分加混合检索向量BM25召回率提升15%加重排器精度提升10%加查询改写复杂问题分解为子问题Result准确率从80%提升到93%P95延迟只增加了200ms面试技巧用真实数据说话不要编造。面试官追问细节时能答上来才是真的。总结架构面试看的是全局视野细节深度。能画出系统架构图也能说清楚每个组件的选型理由、坑点和优化方向。最好的准备方式是把你自己做过的项目画成架构图对着图想如果用户量翻10倍哪里会先扛不住。

AI应用开发面试题精讲（四）：系统架构与生产落地高频15问

相关新闻