AI时代数据存储管理新挑战分论坛圆满举办

公益频道 2023年12月20日 10:20

      原标题:

      正在加载

      12月16日,AI时代数据存储管理新挑战分论坛在无锡成功召开,会上来自蚂蚁集团、SphereEx、平凯星辰、九章云极DataCanvas、StreamNative、腾讯云和华为的技术专家,共同分享了AI时代下数据库技术最新发展与实践。

蚂蚁集团开发工程师、HoraeDB 核心开发者 曹瑞秋

      曹瑞秋在《时序数据库HoraeDB 技术揭秘》的主题分享中表示,近期已将CeresDB内核捐献到Apache基金会,捐献的内核即为HoraeDB(CeresDB现已更名为HoraeDB)。目前主流的InfluxDB、Prometheus、VictoriaMetrics等时序数据库仍存在时间线高基数问题和社区分布式方案不够完备等问题。而HoraeDB采用倒排索引支持多维查询,时间线少,适配度高的场景,倒排索引能直接全量存放在内存中。HoraeDB的高基数解决方案的核心是摒弃时间线概念,去除对倒排索引的强依赖,针对不同tag灵活选择索引。此外,曹瑞秋还详细介绍了HoraeDB分布式查询优化、Memtable/SST read等优化设计思路。

SphereEx创始人 张亮

      张亮发表了《数据库增强计算引擎:数据库架构革新新思路》主题演讲。他认为在海量数据急速扩张,OLTP、OLAP、HTAP等多种数据应用场景,数据库技术栈碎片化等情势下,数据系统应对上应用层零入侵,数据库本身工具化,因此中间加速引擎则具有创新性、可插拔、平台化。SphereEx公司是由Apache顶级开源项目ShardingSphere核心团队创立,致力于为企业提供面向新一代数据架构的数据库增强引擎(DBPlusEngine),提供企业级、云原生的轻量级分布式数据库解决方案、数据安全合规及信创平滑替换产品和服务,解决了企业海量数据的存储与计算、数据安全合规等问题,帮助企业实现数据架构的转型升级。

平凯星辰TiDB Serverless生态负责人 张翔

      张翔发表了《TiDB Serverless:构建一个云原生的Serverless数据库》主题演讲。他首先介绍了TiDB 是开源、兼容MySQL、具有分布式,可保障业务连续性的真正的内核级HTAP分布式混合负载数据处理平台,在此之后的TiDB Serverless是在去年由PingCAP推出的一款云原生的Serverless数据服务演进而来,已经由经典分布式HTAP改造为下一代Cloud Native架构。因此可以实现如支持多租户的统一接入网关、TiFlash计算存储分离、计算资源池化、TiKV Keyspace,以及Scale to Zero、实时唤醒、自动扩缩容等按需分配,可以利用云上的海量资源、高达11个9的持久性、微服务化,更高效地使用云上资源,降低爆炸半径等真正的原生性能,以此实现全量数据的弹性,以及简单易用,降低AI时代的数据成本。

九章云极DataCanvas资深架构师 孟圣智

      孟圣智发表了《DingoDB:融合SQL与向量,构建功能完整的RAG数据库底座》主题演讲,他表示AI时代数据需要从更多存储变为更易检索,九章云极DataCanvas作为AI基础软件供应商,自主研发的DingoDB多模向量数据库,实现结构化与非结构化的联合存储、分析和查询。DingoDB既是关系数据库,支持SQL、支持事务,符合用户使用关系型数据库的习惯。同时,DingoDB也是向量数据库,支持Python和Java SDK,可以像使用大多数纯向量数据库一样,无缝对接LLM App,可以实现企业知识库、大模型记忆体、实时决策指标计算能力、非结构化数据的检索、Vector Ocean数据支撑平台、结构化与非结构化的融合分析等多种知识检索应用场景。

StreamNative联合创始人、Apache Pulsar PMC Member 翟佳

      翟佳发表了《云原生批流融合数据平台助力AI/LLM的实时数据处理》主题演讲,他表示Pulsar从捐赠给Apache软件基金会后的几年里一直在高速增长。Pulsar采用存算分离云原生架构、支持多种语言,批和流统一视图,可以与Flink、Spark等批流一体计算引擎有效地结合,方便管理实时和历史数据,确保数据新鲜度,将批流一体的数据与向量数据库结合,确保大模型的数据显现度和准确性,以提高模型准确性,降低模型幻觉。

腾讯开源专家 耿航

      耿航发表了《腾讯云TDSQL平滑去O的机遇挑战与开源实践》主题演讲,他表示核心数据库平滑替换,需要从内核、性能、使用习惯三个层面全面兼容,并且是一个完整的系统工程。腾讯云分布式数据库TDSQL PG开源社区版OpenTenBase是完整去O和兼容O的数据库内核,以内核兼容为基础,打造从驱动、工具、内核三个层面的甲骨文兼容能力,填补基于Postgres的开源分布式HTAP系统的空白。OpenTenBase已吸引超过10个国家和地区的开发者关注,希望通过腾讯及上下游伙伴的技术投入,打造立足中国,面向全球的开放数字基础设施数据底座。

华为openGauss内核技术专家 胡正超

      胡正超发表了《openGauss内核架构双引擎,驱动大规模数据处理》主题演讲,并分享了openGauss 5.1版本持续在高性能、高可用、高安全、高智能内核上增强能力,同时在DataPod和DataKit持续创新,目标是实现更高效的大规模数据处理,更丰富的场景支持,更便捷的使用体验。其中DataPod在5.1版本实现了一些新功能,提升了系统的易用性、可用性和性能。DataKit为openGauss的数据全生命周期生产力工具,当前持续在平台架构和功能插件上构建新功能,如增加告警中心、数据迁移、开发、运维等插件。

      近几年数据库百花齐放,快速发展。生成式AI爆发之后,AI大模型加速普及应用,模型训练推理的准确性,对系统数据与信息的存储、检索、计算提出了新挑战。从本次分论坛嘉宾分享的干货内容,我们可以看到,针对AI的数据系统可能正在走向殊途同归的技术路径,那就是分布式原生、实时、向量化(时序也可看作一种向量),另外存算分离、并行架构,以满足AI对数据的性能、成本等要求。