高考志愿AI测评:千问多项表现超人类咨询师
「友松实验室发布首个高考志愿AI测评基准,以千问Agent为对象,结果显示其在客观题、方案稳定性等方面超越资深人类咨询师,但人类在个性化判断上仍不可替代。」
6月23日,国内首个针对高考志愿填报场景的AI能力测评报告《高考志愿AI测评基准》正式发布。该报告由专注人工智能与教育决策研究的独立团队友松实验室完成,以阿里旗下千问高考志愿填报Agent作为首个测评对象,旨在为快速涌现的高考志愿AI产品建立一套公开、可复现、可扩展的评估框架。
测评覆盖了高考志愿填报的四个核心环节:基本事实与规则、模拟志愿填报、开放式咨询和志愿推荐报告。这对应了考生和家长从查资料、看规则,到排方案、做决策的完整流程。人类对照组由53名平均从业年限4.6年的志愿填报咨询师组成,与AI进行多维度对比。
结果显示,千问在44道客观题中全部答对,准确率达到100%,而人类咨询师的平均正确率为89.3%。在模拟志愿填报环节,千问生成的方案包含6个可录取志愿,未出现显性偏好违背,并命中了事后评估的最优结果;人类咨询师平均仅能提供5.3个可录取志愿。在开放式咨询的100场匿名对比中,评审专家有58次更倾向于选择千问版本,认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。千问回答的“可直接向学生和家长展示”率为56.0%,高于人类咨询师的33.0%。
报告指出,在测评设定的任务范围内,千问的多项表现已达到资深人类咨询师水平,尤其在稳定性、精确性、结构化表达与响应效率方面展现出明显优势。这得益于千问基于夸克8年高考服务数据与经验的构建基础,使其在产品形态、数据积累和用户覆盖上具有行业代表性。
然而,报告同时强调,人类咨询师的价值不可替代。尤其在收入预期、就业判断等需要结合个体情况谨慎校准的话题上,咨询师更能给出贴近实际的建议。在亲子协商、价值取舍等复杂场景中,结构完整的AI方案也无法替代人与人之间的沟通和判断。报告建议,AI更擅长高效完成信息核验、资料整理和方案初筛,而人类咨询师则可更多聚焦于家庭沟通、价值取舍和个性化判断。二者形成互补,才能让志愿填报既提高准确性,也更贴近考生和家庭的实际需求。
来源:Heooo AI工具导航