亿博体育app-亿博体育app下载|官方首页 042-83928381

存储盘算解耦合 构建中国人英语语音数据库

作者:亿博体育app 时间:2021-09-10 15:23
本文摘要:简介: 通过阿里云为流利说量身打造的数据湖解决方案解决了流利说多种应用的各种数据的统一存储资助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。 公司先容 流利说自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统从听、说、读、写多个维度提升用户的英语水平为用户提供一整套系统性的英语学习解决方案停止 2020 年 6 月 30 日累计注册用户达1.856 亿。

亿博体育app

简介:通过阿里云为流利说量身打造的数据湖解决方案解决了流利说多种应用的各种数据的统一存储资助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。
公司先容

流利说自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统从听、说、读、写多个维度提升用户的英语水平为用户提供一整套系统性的英语学习解决方案停止 2020 年 6 月 30 日累计注册用户达1.856 亿。

在大数据盘算方面通过阿里云 EMR 构建大数据盘算集群提供了包罗 Hadoop、Hive、Spark、Presto 在内的多种大数据盘算引擎。

基于数据湖的存储与盘算解耦合架构所有盘算任务的最终数据都是存储到 OSS 持久存储。

业务场景先容

2013 年流利说推出了第一款产物“英语流利说”集成了语音识别、打分和自适应学习等多种焦点技术。具有上下文情景对话、发音指导课程等富厚内容并提供人工智能英语老师和游戏化的学习体验为用户在英语学习中获得更多兴趣。

这款有趣又有效的产物很快就占领了其时的市场并获得了用户的高度认可。

最后阿里云 VPC 网络、RAM 等会见控制保障体系更是为流利说的焦点资产“中国人英语语音数据库” 提供了更可控更细粒度的宁静会见控制掩护。

业务难点

流利说在面临日常业务需求量以及用户数量飞速增长的情况下流利说经常需要面临以下几个差别的挑战

亿博体育app

差别时段流量变化大系统需要支持动态请求流量

由于天天差别时段流量变化很大岑岭时段的流量会到达平时的 10 倍需要系统有足够的能力支持动态变化的请求流量因此对于系统弹性拓展能力就提出了很高的要求。

产物组合和功效富厚如作甚系统平稳运行提供保障

针对流利说日常业务对云服务的弹性、稳定性和大算力的极高要求阿里云为流利说量身定制了一站式数据湖解决方案。

数据量级与应用系统庞大度增加系统容量和性能成问题

流利说自研口语评测、写作打分引擎和深度自适应学习系统天天都需要凭据用户学习情况举行分析凭据每个用户差别的学习给予评分和指导建议随着用户数的增加和应用庞大度的增加对于大数据系统的容量和性能都有着极高的要求。

同时阿里云数据湖解决方案对开源生态提供很是友好的支持客户基于开源框架开发的应用和业务代码可以不用修改直接基于阿里云的数据湖解决方案运行。

由于产物组合和功效越来越富厚对于系统的能够提供的性能要求不停增加大量的付用度户对于会见体验有很高的期望因此需要高可靠、高稳定的系统来支撑各款产物平稳地运行。

流利说是世界领先的科技驱动的教育公司作为智能教育的倡行者流利说拥有一支业内领先的人工智能团队经由多年积累流利说已拥有巨型的“中国人英语语音数据库”累积实现记载约莫 37 亿分钟的对话和 504 亿句录音。

作者:阿里巴巴存储技术

亿博体育app

本文为阿里云原创内容未经允许不得转载

阿里云数据湖解决方案

到达的效果

通过阿里云为流利说量身打造的数据湖解决方案解决了流利说多种应用的各种数据的统一存储资助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。使用阿里云构建的数据湖可以充实发挥盘算与解耦合架构的优点联合阿里云 ECS 弹性实例和 K8S凭据实际业务需求动态扩展、缩减对应盘算资源无须根据业务峰值常驻盘算资源这种灵活的使用模式能够资助流利说最大水平地优化成本。

但业务快速生长用户数大幅度增长平台的用户数量已从当初的百万级增长至过亿因此业务的崎岖峰期数据流量变化、业务庞大度和分析难度都给给 IT 架构带来了庞大的挑战。

首先对于数据存储流利说的大数据平台使用 OSS 作为数据基础层解决了流利说多类数据的统一存储同时对接多种盘算引擎。

而且 OSS 提供了 99.9999999999% (12 个 9)的数据持久性和99.995% 的高可用性有力的保障流利说的业务稳定和可靠。


本文关键词:存储,盘算,亿博体育app,解,耦合,构建,中国人,英语,语音

本文来源:亿博体育app-www.meidile.net