高考志愿AI测评：千问多项表现超人类咨询师

6月23日，国内首个针对高考志愿填报场景的AI能力测评报告《高考志愿AI测评基准》正式发布。该报告由专注人工智能与教育决策研究的独立团队友松实验室完成，以阿里旗下千问高考志愿填报Agent作为首个测评对象，旨在为快速涌现的高考志愿AI产品建立一套公开、可复现、可扩展的评估框架。

测评覆盖了高考志愿填报的四个核心环节：基本事实与规则、模拟志愿填报、开放式咨询和志愿推荐报告。这对应了考生和家长从查资料、看规则，到排方案、做决策的完整流程。人类对照组由53名平均从业年限4.6年的志愿填报咨询师组成，与AI进行多维度对比。

结果显示，千问在44道客观题中全部答对，准确率达到100%，而人类咨询师的平均正确率为89.3%。在模拟志愿填报环节，千问生成的方案包含6个可录取志愿，未出现显性偏好违背，并命中了事后评估的最优结果；人类咨询师平均仅能提供5.3个可录取志愿。在开放式咨询的100场匿名对比中，评审专家有58次更倾向于选择千问版本，认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。千问回答的“可直接向学生和家长展示”率为56.0%，高于人类咨询师的33.0%。

报告指出，在测评设定的任务范围内，千问的多项表现已达到资深人类咨询师水平，尤其在稳定性、精确性、结构化表达与响应效率方面展现出明显优势。这得益于千问基于夸克8年高考服务数据与经验的构建基础，使其在产品形态、数据积累和用户覆盖上具有行业代表性。

然而，报告同时强调，人类咨询师的价值不可替代。尤其在收入预期、就业判断等需要结合个体情况谨慎校准的话题上，咨询师更能给出贴近实际的建议。在亲子协商、价值取舍等复杂场景中，结构完整的AI方案也无法替代人与人之间的沟通和判断。报告建议，AI更擅长高效完成信息核验、资料整理和方案初筛，而人类咨询师则可更多聚焦于家庭沟通、价值取舍和个性化判断。二者形成互补，才能让志愿填报既提高准确性，也更贴近考生和家庭的实际需求。

高考志愿AI测评：千问多项表现超人类咨询师

相关资讯

智谱市值破万亿港元，GLM-5.2开源引关注

豆包App灰度测试打车功能接入曹操出行

微信灰度上线原生AI助手“小微”

谷歌TPU v9升级款曝光，联发科独家接单

谷歌AI搜索强制推送引发用户反水