考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

简介:

在一批在线教育试水者当中,赵梓淳带领的考拉阅读有点不太一样。

因为国内做分级阅读的虽然不多,但是做中文的分级阅读,国内目前却仅有他们一家。

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

考拉阅读CEO赵梓淳

在在线教育这个领域,考拉阅读算是一名新人——成立不足1年,团队堪满60人,刚完成3000万的Pre-A轮融资。在创始人赵梓淳眼中,阅读教育是一项非常庞大的产业,AI+教育的未来仍存在很多不确定性。考拉阅读也还处于摸索阶段。

为什么要做中文的分级阅读标准?

事实上,在国内,如好未来、VIPkid等一些在线教育企业已经在做英文的分级阅读,虽有其物,但一直没多大水花。赵梓淳向雷锋网透露,对于考拉阅读来说,做英语的分级阅读标准并没有太大的技术难度,但他们并不想做。

原因很简单,国外已有一套很成熟的英文分级阅读标准系统,不仅运行了将近40年且已覆盖了美国90%的学校,如Lexile分级(蓝思分级)、GE分级等。而在国内,中文阅读不仅连分级标准都未建立,很多教师甚至连分级阅读都没听过,尤其是在重要的K12教育领域,很多书店给童书分级,只能给出诸如“适合8岁以下孩子阅读的童话书”等基于感性、经验基础的文字建议。此外,教师、家长对孩子的阅读水平的了解也一直处于空白状态,因为获取这一数据的渠道不是没有,就是非常非常有限。

在这两大刚需的驱使下,再加上“全民阅读”、二胎等相关政策的颁布,以及人工智能、机器学习和大数据的发展,又给前者提供了更充分的条件,这一切都让赵梓淳觉得:做一套中文的分级阅读标准很有必要,而且,时机也来了。

瞄准AI,建立基于ER Framework的中文分级阅读系统

丨中英文差异

考拉阅读CTO任易向雷锋网透露,在欧美,英文的分级阅读主要有两个维度:

▪  语义:主要看词频,如果一个单词出现的频次很低,则系统会判定这个词相对较难。

▪  句法:主要看句子长度,长句一般较难去分析和理解。而句子难度跟从句、副词、介词等的使用也密切相关。

在这两个维度上,欧美国家通过统计学的方法来完成分级阅读标准的建立。任易表示,考拉阅读的中文分级阅读标准(ER Framework )借鉴了国外的“词、句”的分析思想,因而和其有一定的相似性。但是,由于中文相较英文的「天生复杂性」,决定了考拉阅读必须做得更加深入。

据赵梓淳介绍,中文和英文的三大本质区别主要在于:

▪  基础单元:英文的基础是26个字母,中文的常用汉字达3500个,这就决定了中文阅读的分析必然需要一个规模化的语料库。

▪  分词:英文不需要分词,仅需空格即可判定词语的边界,但汉字脱离不了分词。如「量子自旋效应」这个词,有人可以将其分为「量子」、「自旋」、「效应」三个词,也有人认为这就是一个词。但在英文中就无此类困扰。

▪  句式结构:在句式结构上,英文要严谨得多,如主从句之间会有that、which、what等来界定。中文的行文风格则较为随意,嵌套结构也要混乱得多。

丨「字词句段篇」五大维度+AI技术

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?鉴于这三大区别,考拉阅读基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度,并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征,「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。

赵梓淳告诉雷锋网(公众号:雷锋网),他们一共处理了几百万字的非平衡语料库和几亿字的平衡语料库。考拉阅读的非平衡语料库主要来自各个版本的小学教材及其教辅资料,其是指垂直于某一品类的语料库,如小说、历史传记各有其对应的语料库;平衡语料库即指一个孩子在日常生活中需要真实接触的语料,如,按照一位10岁小孩需要看20%的名著小说、50%的课文和20%的漫画这种比例来配语料库。

“因为中文的的句子相较英文要复杂得多,机器在理解中文的第一步就会遇到词性分析、语言模型上的困难。所以,有赖于现在流行的AI技术,如RNN、LSTM等深度学习技术,可以弥补中文在NLP上的缺失。”任易表示,“现在我们可以做到,将一个句子按照句法树、依赖关联等予以拆解,以分析每一个成分在句子中的比重,从而实现阅读文本的难度分级。”

而区别于欧美英文分级阅读,考拉阅读的分级阅读系统最大的优势即在于AI在此发挥的作用。赵梓淳向雷锋网透露,随着用户数量的增加,产生的数据越多,该系统中的模型可实现自主学习,不断优化,从而对文本阅读的难度感知越发准确。

以教育局切入,「从上至下」走To B路线

据雷锋网了解,目前赵梓淳带领其团队共开发了三款产品:

▪  基于ER Framework的个性化分级阅读系统;

▪  基于ER Framework和“新课标”的阅读能力测评;

▪  针对公立学校的阅读整体解决方案,包括教师培训、分级短文材料等。

其中,考拉阅读的分级阅读系统现在已经进入天津市200余所中小学,被全市上百万的小学生使用。赵梓淳称,考拉阅读的用户群主要为小学阶段的孩子,目标是利用AI和语言学的结合,全面提升这些孩子的阅读能力。

在公司战略决策的制定上,赵梓淳显得非常冷静而果断,其称,考拉阅读的业务从一开始就是围绕To B在展开,不会针对C端使用。原因有两点:

1、普通民众并不明白什么是分级阅读。对于考拉阅读这种体量的创业公司而言,要转变他们对分级阅读的认知,任务实在过于繁重。所以,更好的方式就是在一开始就从To B端的公立学校、教育机构去切入,让教育局、教师等为分级阅读背书,且还能增强公司产品的公信力。

2、目前获取C端用户的成本依然很高。

基于此,赵梓淳表示,“所以我们还是想在B端稳扎稳打下去。后期公司发展到一定程度之后,必定会走向To C端,毕竟To B的天花板一定是可以预见的。”

丨牵手200余所中小学

然而,在在线教育这一慢热的市场,特别是在很多教育资源都被政府等相关机构紧紧攥在手里的情况下,考拉阅读又是如何打通这些壁垒,与教育局,以及地级市200余所学校成功牵手的呢?

赵梓淳告诉雷锋网,事实上,考拉阅读一开始走这条路也不太顺利——最先其采取对每家学校进行单点突破的方式,却发现效率非常低下。

赵梓淳带领其团队观察到这样一个现象,国内很多中小学都很重视学生的测评,但在阅读能力的测评上却处于相对空白的状态。于是,考拉阅读联合北京师范大学基础教育评测中心合作「搞」了一件大事:在国内的一线到四线城市,对近10万学生进行了基于ER Framework和“新课标”的阅读能力测试,并对相关数据进行分析,最终出具了一份中国学生的阅读能力量表。在测评的助攻下,考拉阅读成功打通了和中小学合作的路径。

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

丨开设教师培训课程

同时,在推进分级阅读标准的过程中,考拉阅读发现「教师」这一角色反而是整个推进过程的关键角色。因为虽然已经开发出中文分级阅读标准及其配套工具和产品,但在赵梓淳看来,这些工具和产品依然需要人来使用,需要教育者来向这些孩子传递教育的温度和理念。但是,国内教育理念跟不上,语文教师对整个前沿教育的趋势掌握不到位......这些都是问题。

针对这一痛点,考拉阅读还和学校合作开展了20课时和40课时不同版本的针对教师的培训课程,由其团队里具有深厚教研经验的成员进行研发,分为线下集中辅导和线上远程支持两种路径,以培训教师们及时更新各种新兴教育理念的能力,从而及时掌握教育阅读的最新发展趋势。

结语

分级阅读进入国内的这些年,不是没有遭受过质疑之声,有人认为分级阅读不适应中国国情,比如有些孩子从小耳濡目染四大名著,可能会对超出分级阅读系统推荐的书目以外的书籍感兴趣,当然不能排除这种可能性。

面对这一问题,赵梓淳如此表示:

“分级阅读系统只是一种工具,它并不能喧宾夺主说可以取代老师。我们做分级阅读的意义就在于,想告诉家长和老师,哪种文本难度的书目是适合你的孩子或学生去阅读的。至于读还是不读,依然需要家长和老师去做出判断。”

最后,谈及在推进分级阅读教育过程的体会时,赵梓淳坦言道,“教育是一件很大很大的事情,因为它与人性直接相关,不是仅仅做好产品就能实现「通吃」的。大家一直都在说「教育科技」,而非「科技教育」,因为教育一定是摆在第一位的。”


本文作者:李秀琴
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
1月前
|
人工智能 自然语言处理 文字识别
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
【2月更文挑战第17天】阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
125 2
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
|
1月前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【2月更文挑战第15天】 在数字化时代,网络安全已成为全球关注的焦点。传统的安全防御手段在面对日益复杂的网络威胁时显得捉襟见肘。本文将探讨如何利用人工智能(AI)技术构建一个自适应的网络安全防御系统。该系统能够实时分析网络流量,自动识别和响应潜在威胁,从而提供一种更加动态和灵活的安全保护机制。通过深度学习算法的不断进化,这种系统能够预测和适应新型攻击模式,显著提高防御效率和准确性。
|
1天前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
12 0
|
1天前
|
人工智能 安全 机器人
AI电销机器人系统源码部署:freeswitch安装Windows
在Windows上安装FreeSWITCH:访问官网下载安装程序,运行并按提示安装;选择安装路径和组件;等待安装完成;配置FreeSWITCH,修改设置;启动服务;测试其功能;如遇问题,参考官方文档或进行调试故障排除。记得定期更新维护以保证稳定安全。
|
6天前
|
人工智能 前端开发 Java
Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码
智慧导诊解决盲目就诊问题,减轻分诊工作压力。降低挂错号比例,优化就诊流程,有效提高线上线下医疗机构接诊效率。可通过人体画像选择症状部位,了解对应病症信息和推荐就医科室。
53 10
|
17天前
|
机器学习/深度学习 人工智能 运维
构建未来:AI驱动的自适应网络安全防御系统
【4月更文挑战第7天】 在数字时代的浪潮中,网络安全已成为维系信息完整性、保障用户隐私和确保商业连续性的关键。传统的安全防御策略,受限于其静态性质和对新型威胁的响应迟缓,已难以满足日益增长的安全需求。本文将探讨如何利用人工智能(AI)技术打造一个自适应的网络安全防御系统,该系统能够实时分析网络流量,自动识别并响应未知威胁,从而提供更为强大和灵活的保护机制。通过深入剖析AI算法的核心原理及其在网络安全中的应用,我们将展望一个由AI赋能的、更加智能和安全的网络环境。
28 0
|
1月前
|
人工智能 算法 搜索推荐
构建未来:AI在持续学习系统中的创新应用
【2月更文挑战第30天】 本文聚焦于人工智能(AI)技术在持续学习系统(CLS)中的前沿应用,探讨了AI如何促进个体和组织的知识演进与技能提升。通过分析自适应学习算法、数据驱动的个性化推荐以及智能辅助决策支持等关键技术,揭示了AI在推动终身学习和知识管理领域的创新潜力。文章还考察了这些技术在实际部署中面临的挑战,包括数据隐私保护、算法透明度和系统集成问题,并提出了相应的解决策略。
25 3
|
1月前
|
人工智能 算法 测试技术
脑洞大开丨让 AI 写代码,能做出什么样的项目?
AI 编程助手通义灵码可补全代码、写测试、调试和生成注释代码。现在推出全民体验活动,参与者有机会赢取 iPhone15、Switch 等大奖。
|
1月前
|
机器学习/深度学习 存储 人工智能
构建未来:AI在持续学习系统中的创新应用
【2月更文挑战第29天】 在人工智能的不断进步中,一个引人注目的领域是持续学习系统(Continuous Learning Systems, CLS)。这类系统旨在模拟人类学习过程,允许AI模型在不断接收新信息的同时,保持并增强其先前的知识。本文将探讨AI在持续学习领域的最新技术进展,分析其对现有教育模式、工业应用及个人发展的深远影响,同时提出当前面临的主要挑战和潜在的解决方案。
20 1