一次由 Product Sense 驱动的 Agent 极限实践

摘要总结：AI 时代，写好代码只是及格线。在一次极限挑战赛中，我们通过对 K12 赛道用户痛点的精准“视角切换”，打造出一款授人以渔的“数学辅导导师”并斩获大奖。本文复盘了 Agent 搭建背后的核心 SOP 设计逻辑：技术终究要回归对真实人性的体察与关怀。

在刚刚过去的周末，我和好友参加了一场由千帆 Agent 举办的线下社区活动。这是一场充满极客精神的“极限挑战”——我们需要在极其有限的时间内，从零开始构思、搭建并现场展示一个完整的 Agent 应用。

令人惊喜的是，我们不仅顺利完成了极限开发，最终还斩获了全场的「最佳应用奖」。

复盘这次短暂却高密度的开发体验，最大的感触是：在 AI 时代，单纯的工程实现已经不再是唯一的壁垒，真正让应用脱颖而出的，是对真实业务场景的洞察力。当 (Engineering + Product) × AI 的飞轮开始转动时，技术才能真正转化为解决问题的利器。

以下是关于这次“K12 数学小助手” Agent 搭建的实践总结与思考。

1. 破局点：面对 K12 赛道，谁才是真正的用户？

活动给定的命题是“K12 教育”。在极限开发的时间压力下，最容易陷入的思维陷阱就是“直线思考”——既然是 K12，那就直接做一个给学生用的解题机器人。

但这恰恰违背了产品的核心逻辑。从受众角度来看，直接面向心智尚未成熟的 K12 学生提供一个“答案生成器”，极易沦为应付作业的作弊工具，既得不到学校的认可，也会引发家长的担忧。

因此，在选题阶段，我们进行了一次关键的视角切换：将目标用户从“学生”转移到了“家长和老师”。

当代家长在辅导孩子尤其是数学作业时，最大的痛点往往不是“不知道答案”，而是“不知道如何科学地给孩子讲解”。基于这个 Product Sense，我们确定了 Agent 的核心定位——它不是一个冷冰冰的解题机，而是一位帮助家长掌握科学辅导方法的“幕后导师”。

2. 为什么选择“数学”？—— 技术边界与场景的完美契合

在众多的 K12 学科中，我们最终锁定了“数学”，这并非偶然，而是基于对大语言模型（LLM）能力边界的清晰认知：

规避“幻觉”的工程解法：众所周知，纯文本大模型在进行严谨的逻辑推演和数学计算时，极易产生“幻觉”。但自定义 Agent 拥有调用外部工具（尤其是代码解释器 Code Interpreter）的能力。这意味着我们可以让 Agent 通过编写和执行代码来处理复杂的数学计算，从而在架构层面保证了结果的准确性。
满足“解题”与“解释”的双重需求：数学不仅仅是得出正确答案，更重要的是推导过程。Agent 可以并发处理双重任务——一方面在后台精准计算，另一方面在前台用自然语言将解题思路拆解为通俗易懂的“人话”，提供全面的教学辅助。

3. Agent 核心设计：结构化的 Prompt 规范

确定了产品方向后，接下来的重点就是“规范驱动” Prompt 设计。为了让 Agent 稳定输出高质量的内容，我们对其角色、工作流、工具链和限制条件进行了严格的定义。以下是我们在比赛中使用的核心 Prompt 设计：

markdown

# 角色任务
你是一位经验丰富的小学数学教师，专注于帮助家长掌握科学的数学辅导方法。你的核心目标是引导家长理解问题背后的思维逻辑，提升他们协助孩子分析与解决问题的能力，真正做到“授人以渔”，同时还能够举一反三。

在回应家长提问时，请严格遵循以下三步流程：
Step1：拆解问题——清晰梳理解题思路，指导家长如何一步步引导孩子理解题目本质，强调关键思考节点。
Step2：类比拓展——通过“百度搜索”工具查找与当前问题相似的典型例题或变式题，提供可参考的同类问题，帮助家长举一反三。
Step3：趣味延伸——结合“知识库”和网络资源，挖掘该知识点在真实生活或工作中的趣味应用案例、小故事或数据，并以幽默生动、通俗易懂的方式呈现，激发孩子对数学的兴趣；此部分需以“额外说明：”为前缀。

# 工具能力
1. 图像内容理解：当用户上传含题目的图片时，调用图像理解工具准确识别题目内容，结合文字描述进行综合分析。
2. 百度搜索：用于查找相似题型、教学案例或生活应用场景，确保信息时效性与多样性。
3. 代码解释器：可用于验证计算过程或生成可视化图表辅助讲解。

# 要求与限制
1. 语言风格：亲切自然，避免学术化术语，适合家长理解并转述给孩子。
2. 内容准确性：所有知识点、解题步骤及案例必须正确无误，严禁虚构或误导。
3. 安全性：不涉及任何敏感话题，不传播错误价值观。
4. 多模态表达：根据需要灵活使用文字、示意图、音视频建议等方式，增强讲解效果。

# 示例
用户：孩子做应用题总是读不懂题意，怎么办？
回复：别急，这其实是很多孩子的“共性难题”！我们可以这样一步步来：
第一步：帮孩子圈出关键词，比如“一共”“剩下”“每盒”等，这些就是解题的“导航灯”；
第二步：画个简单的图示（比如用方框代表盒子，小圆点代表物品），把抽象问题变成看得见的画面；
第三步：找一道类似的题试试看——我刚查到一个“分糖果”的经典题，特别适合练习理解题意；
额外说明：你知道吗？超市里算打折优惠，其实就是在用“百分数”！有个小朋友曾用这个算出了妈妈买奶茶省了多少钱，还被夸“数学小管家”呢～

设计巧思解析：

三步走工作流（SOP）：通过 拆解 -> 类比 -> 延伸 的强制性流程，保证了输出内容的结构化与教育深度，这不仅仅是解答，更是一套微型的教学法。
工具的有机结合：引入 图像理解 工具，解决了家长“拍照问答”的高频交互需求；百度搜索 保证了变式题和趣味延伸的素材新鲜度；代码解释器 则是数学准确率的护城河。

至此，整个 Agent 设计就基本完成，于是我们快速使用千帆提供的 SDK，编码实现了 Agent 的功能，然后将其部署到了千帆提供的平台。

4. 总结：从研发思维到产品直觉

在 Demo 演示环节，当我们输入“孩子做应用题总是读不懂题意，怎么办？”时，Agent 并没有干巴巴地罗列知识点，而是像一位耐心的老教师一样，教家长如何圈出“一共”、“剩下”这些“导航灯”，并顺手推送了一道经典的“分糖果”变式题，甚至还补充了超市打折算百分比的生活趣味案例。

那一刻，台下的反响印证了我们最初的判断：打动人心的永远不是冷峻的技术指标，而是技术对真实人性的体察与关怀。

这次获奖是一次非常棒的验证，它让我更加确信，在 AI 赋能的开发流中，写好代码只是及格线。拥有对业务痛点的敏锐嗅觉，并利用大模型组合出优雅的解决方案，才是我们在未来应当持续修炼的内功。

一次由 Product Sense 驱动的 Agent 极限实践 ​

1. 破局点：面对 K12 赛道，谁才是真正的用户？ ​

2. 为什么选择“数学”？—— 技术边界与场景的完美契合 ​

3. Agent 核心设计：结构化的 Prompt 规范 ​

4. 总结：从研发思维到产品直觉 ​

一次由 Product Sense 驱动的 Agent 极限实践

1. 破局点：面对 K12 赛道，谁才是真正的用户？

2. 为什么选择“数学”？—— 技术边界与场景的完美契合

3. Agent 核心设计：结构化的 Prompt 规范

4. 总结：从研发思维到产品直觉