Skip to content

一次由 Product Sense 驱动的 Agent 极限实践

摘要总结:AI 时代,写好代码只是及格线。在一次极限挑战赛中,我们通过对 K12 赛道用户痛点的精准“视角切换”,打造出一款授人以渔的“数学辅导导师”并斩获大奖。本文复盘了 Agent 搭建背后的核心 SOP 设计逻辑:技术终究要回归对真实人性的体察与关怀。

在刚刚过去的周末,我和好友参加了一场由千帆 Agent 举办的线下社区活动。这是一场充满极客精神的“极限挑战”——我们需要在极其有限的时间内,从零开始构思、搭建并现场展示一个完整的 Agent 应用。

令人惊喜的是,我们不仅顺利完成了极限开发,最终还斩获了全场的「最佳应用奖」

复盘这次短暂却高密度的开发体验,最大的感触是:在 AI 时代,单纯的工程实现已经不再是唯一的壁垒,真正让应用脱颖而出的,是对真实业务场景的洞察力。当 (Engineering + Product) × AI 的飞轮开始转动时,技术才能真正转化为解决问题的利器。

以下是关于这次“K12 数学小助手” Agent 搭建的实践总结与思考。

1. 破局点:面对 K12 赛道,谁才是真正的用户?

活动给定的命题是“K12 教育”。在极限开发的时间压力下,最容易陷入的思维陷阱就是“直线思考”——既然是 K12,那就直接做一个给学生用的解题机器人。

但这恰恰违背了产品的核心逻辑。从受众角度来看,直接面向心智尚未成熟的 K12 学生提供一个“答案生成器”,极易沦为应付作业的作弊工具,既得不到学校的认可,也会引发家长的担忧。

因此,在选题阶段,我们进行了一次关键的视角切换:将目标用户从“学生”转移到了“家长和老师”

当代家长在辅导孩子尤其是数学作业时,最大的痛点往往不是“不知道答案”,而是“不知道如何科学地给孩子讲解”。基于这个 Product Sense,我们确定了 Agent 的核心定位——它不是一个冷冰冰的解题机,而是一位帮助家长掌握科学辅导方法的“幕后导师”

2. 为什么选择“数学”?—— 技术边界与场景的完美契合

在众多的 K12 学科中,我们最终锁定了“数学”,这并非偶然,而是基于对大语言模型(LLM)能力边界的清晰认知:

  • 规避“幻觉”的工程解法:众所周知,纯文本大模型在进行严谨的逻辑推演和数学计算时,极易产生“幻觉”。但自定义 Agent 拥有调用外部工具(尤其是代码解释器 Code Interpreter)的能力。这意味着我们可以让 Agent 通过编写和执行代码来处理复杂的数学计算,从而在架构层面保证了结果的准确性。

  • 满足“解题”与“解释”的双重需求:数学不仅仅是得出正确答案,更重要的是推导过程。Agent 可以并发处理双重任务——一方面在后台精准计算,另一方面在前台用自然语言将解题思路拆解为通俗易懂的“人话”,提供全面的教学辅助。

3. Agent 核心设计:结构化的 Prompt 规范

确定了产品方向后,接下来的重点就是“规范驱动” Prompt 设计。为了让 Agent 稳定输出高质量的内容,我们对其角色、工作流、工具链和限制条件进行了严格的定义。以下是我们在比赛中使用的核心 Prompt 设计:

markdown
# 角色任务
你是一位经验丰富的小学数学教师,专注于帮助家长掌握科学的数学辅导方法。你的核心目标是引导家长理解问题背后的思维逻辑,提升他们协助孩子分析与解决问题的能力,真正做到“授人以渔”,同时还能够举一反三。

在回应家长提问时,请严格遵循以下三步流程:
Step1:拆解问题——清晰梳理解题思路,指导家长如何一步步引导孩子理解题目本质,强调关键思考节点。
Step2:类比拓展——通过“百度搜索”工具查找与当前问题相似的典型例题或变式题,提供可参考的同类问题,帮助家长举一反三。
Step3:趣味延伸——结合“知识库”和网络资源,挖掘该知识点在真实生活或工作中的趣味应用案例、小故事或数据,并以幽默生动、通俗易懂的方式呈现,激发孩子对数学的兴趣;此部分需以“额外说明:”为前缀。

# 工具能力
1. 图像内容理解:当用户上传含题目的图片时,调用图像理解工具准确识别题目内容,结合文字描述进行综合分析。
2. 百度搜索:用于查找相似题型、教学案例或生活应用场景,确保信息时效性与多样性。
3. 代码解释器:可用于验证计算过程或生成可视化图表辅助讲解。

# 要求与限制
1. 语言风格:亲切自然,避免学术化术语,适合家长理解并转述给孩子。
2. 内容准确性:所有知识点、解题步骤及案例必须正确无误,严禁虚构或误导。
3. 安全性:不涉及任何敏感话题,不传播错误价值观。
4. 多模态表达:根据需要灵活使用文字、示意图、音视频建议等方式,增强讲解效果。

# 示例
用户:孩子做应用题总是读不懂题意,怎么办?
回复:别急,这其实是很多孩子的“共性难题”!我们可以这样一步步来:
第一步:帮孩子圈出关键词,比如“一共”“剩下”“每盒”等,这些就是解题的“导航灯”;
第二步:画个简单的图示(比如用方框代表盒子,小圆点代表物品),把抽象问题变成看得见的画面;
第三步:找一道类似的题试试看——我刚查到一个“分糖果”的经典题,特别适合练习理解题意;
额外说明:你知道吗?超市里算打折优惠,其实就是在用“百分数”!有个小朋友曾用这个算出了妈妈买奶茶省了多少钱,还被夸“数学小管家”呢~

设计巧思解析:

  • 三步走工作流(SOP):通过 拆解 -> 类比 -> 延伸 的强制性流程,保证了输出内容的结构化与教育深度,这不仅仅是解答,更是一套微型的教学法。

  • 工具的有机结合:引入 图像理解 工具,解决了家长“拍照问答”的高频交互需求;百度搜索 保证了变式题和趣味延伸的素材新鲜度;代码解释器 则是数学准确率的护城河。

至此,整个 Agent 设计就基本完成,于是我们快速使用千帆提供的 SDK,编码实现了 Agent 的功能,然后将其部署到了千帆提供的平台。

4. 总结:从研发思维到产品直觉

在 Demo 演示环节,当我们输入“孩子做应用题总是读不懂题意,怎么办?”时,Agent 并没有干巴巴地罗列知识点,而是像一位耐心的老教师一样,教家长如何圈出“一共”、“剩下”这些“导航灯”,并顺手推送了一道经典的“分糖果”变式题,甚至还补充了超市打折算百分比的生活趣味案例。

那一刻,台下的反响印证了我们最初的判断:打动人心的永远不是冷峻的技术指标,而是技术对真实人性的体察与关怀

这次获奖是一次非常棒的验证,它让我更加确信,在 AI 赋能的开发流中,写好代码只是及格线。拥有对业务痛点的敏锐嗅觉,并利用大模型组合出优雅的解决方案,才是我们在未来应当持续修炼的内功。