形态	适用场景	例子
聊天问答	探索式需求	知识助手、客服助手
单点生成	任务明确	写标题、做摘要、改写文案
检索增强	知识依赖强	内部文档问答、法规助手
Agent / 工作流	多步动作	工单流转、报表汇总、工具编排

2.2 为什么不要一上来就做 Agent

Agent 看起来很高级，但 0 到 1 阶段的复杂度通常也最高：

状态多
出错点多
工具权限风险大
评估难度高

更稳的路线往往是：

先把单轮任务做准
再把知识接进来
最后再考虑多步规划和工具调用

2.3 一个务实判断方法

如果你的用户真正要的是“快速完成一个明确任务”，那单点生成往往比大聊天框更好用。

聊天不是 AI 产品的终点，只是其中一种 UI。

三、一个 AI 应用的最小可行架构长什么样

3.1 核心分层

一个比较健康的 AI 应用，至少会分成这几层：

前端交互层：输入、输出、流式体验、取消控制
业务编排层：场景路由、权限、上下文构造
LLM Gateway：模型调用、重试、限流、成本统计
知识 / 数据层：RAG、数据库、外部 API
观测治理层：日志、指标、成本、安全、实验

3.2 为什么要这样分层

因为 AI 项目最怕的就是所有逻辑都直接写在一个接口里：

prompt 拼接也在这里
模型调用也在这里
权限判断也在这里
RAG 召回也在这里
fallback 也在这里

这种代码短期能跑，长期很难维护。

3.3 一个编排层示例

export async function runAiTask(input: {
  task: 'summary' | 'kb_qa'
  userId: string
  content: string
}) {
  if (input.task === 'summary') {
    return aiSummaryService.generate(input.content)
  }

  if (input.task === 'kb_qa') {
    const docs = await ragService.retrieve(input.content)
    return aiQaService.answerWithContext(input.content, docs)
  }

  throw new Error('Unsupported task')
}

核心不是代码量，而是把“场景编排”和“模型调用”分开。

四、质量体系：AI 应用上线前必须回答“怎么判断它好不好”

很多团队做 AI 产品最大的隐患是：

看 demo 觉得不错
内部试用觉得还行
真上线后发现评价两极分化

根因通常是：没有质量定义。

4.1 不同场景质量标准不同

总结类产品

是否抓住关键点
是否过度编造
是否长度合适

知识问答类产品

是否引用正确资料
是否出现幻觉
是否明确承认“不知道”

Agent / 动作类产品

是否动作正确
是否顺序合理
是否越权

4.2 建立最小评测集

至少准备：

真实用户输入样本
期望结果要点
不可接受错误样本

然后定期比较：

模型切换前后
prompt 版本前后
RAG 召回策略前后

AI 应用没有评测集，基本很难稳定迭代。

五、成本体系：别等用户涨起来才第一次看账单

0 到 1 阶段就应该把成本想清楚。

5.1 你至少要知道三件事

单次请求平均多少钱
哪个功能最烧 token
成本增长和业务增长是否匹配

5.2 最常见的浪费点

上下文过长
输出不受控
重试过多
热门请求不做缓存
所有任务都用最强模型

5.3 一个成熟的成本策略

默认模型 + 高质量模型分层
热点内容缓存
长上下文裁剪
成本异常告警
非核心功能配额限制

如果你把这些都留到“之后再做”，很可能之后会变得更难做。

六、安全体系：AI 应用从第一天起就有攻击面

越早做安全边界，后面越轻松。

6.1 最少要考虑这些风险

Prompt Injection
外部资料污染
工具越权调用
敏感信息输出
恶意高频调用造成成本放大

6.2 0 到 1 阶段最推荐的做法

先从低风险、低权限场景起步
尽量先做“建议型”而不是“执行型”产品
高风险动作必须人工确认
敏感数据访问必须强约束

AI 应用最危险的一种做法，就是还没把边界想清楚，就直接赋予“能做事”的能力。

七、数据闭环：产品上线不代表完成，而是评测开始有了真实样本

这是很多人容易忽略的地方。

传统功能上线后，更多是在修 bug。AI 功能上线后，更重要的是：

学会看用户到底在怎么用
看他们在哪一步放弃
看哪些回答被点赞、踩、复制、重试
看哪些问题系统总是答不好

7.1 一个最值钱的闭环数据

数据	作用
用户实际问题	扩充评测集
用户是否追问	判断首答是否命中
用户是否中断生成	判断体验和相关性
用户纠正内容	发现质量缺口
点赞 / 踩 / 复制	识别高价值输出