首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
探秘新一代向量存储格式Lance-format
语落心生
创建于2026-01-21
订阅专栏
Lance-format是一种新的多模态向量格式,面向多大规模训练,推理的场景. 感兴趣的朋友可以多多关注下
等 2 人订阅
共28篇文章
创建于2026-01-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
探秘新一代向量存储格式Lance-format (二) 项目结构与模块划分
第2章:项目结构与模块划分 概述 Lance 作为一个完整的列式数据格式系统,采用了精心设计的模块化架构。其核心实现使用 Rust 编写,并通过 PyO3 为 Python 提供高性能绑定。本章将深入
探秘新一代向量存储格式Lance-format (五) Lance 文件格式详解
第5章:Lance 文件格式详解 概述 Lance 文件格式是整个项目的核心机制。本章讨论 Lance 文件结构、Fragment 组织、Manifest 元数据管理。 Lance 文件体架构 Lan
探秘新一代向量存储格式Lance-format (十一) Scanner 与查询执行
第11章:Scanner 与查询执行 🎯 核心概览 Scanner 是 Lance 的查询执行引擎,负责将用户的查询转换为高效的执行计划。本章讲解 Scanner 的构建器模式、投影下推和谓词下推等优
探秘新一代向量存储格式Lance-format (十五) 标量索引实现
第15章:标量索引实现 🎯 核心概览 BTree、Bitmap 和倒排索引是标量数据加速的三大支柱。 📊 BTree 索引 原理 BTree 是自平衡的排序树,支持范围查询。 实现 查询性能 🎯 Bi
探秘新一代向量存储格式Lance-format (六) 编码与压缩技术
第六章:编码与压缩技术 🎯 核心概览 Lance 的性能秘密之一就是智能编码。相同的数据用不同的编码方式,压缩率可能从 0% 到 99%。本章深入讲解各种编码算法和选择策略。 📊 第一部分:编码的四个
探秘新一代向量存储格式Lance-format (十四) 索引系统架构
第14章:索引系统架构 🎯 核心概览 索引系统是 Lance 查询加速的核心。本章讲解索引接口设计、元数据管理和生命周期。 📊 第一部分:索引架构 Index Trait 定义 索引注册表 🔧 第二部
探秘新一代向量存储格式Lance-format (四) 容器与缓存机制
第4章:容器与缓存机制 概述 Lance 的容器抽象层为整个系统提供了统一的数据取编接口。而缓存管理旨在优化内存访问性能。本章讨论容器的设计、缓存策略、内存管理。 容器抽象设计 什么是容器(Conta
探秘新一代向量存储格式Lance-format (三) Lance 数据类型系统
第3章:Lance 数据类型系统 概述 Lance 的数据类型系统是在 Apache Arrow 的基础上构建的。为了支持多模态 AI 数据,Lance 扩展了 Arrow,添加了向量类型和 Blob
探秘新一代向量存储格式Lance-format (十六) 向量索引 - IVF 系列
第16章:向量索引 - IVF 系列 🎯 核心概览 IVF(Inverted File)和 IVF_PQ 是 Lance 中最重要的向量索引,提供 100-1000 倍的加速。 📊 IVF 原理 🔧
探秘新一代向量存储格式Lance-format (十二) 数据写入流程
第12章:数据写入流程 🎯 核心概览 写入是数据进入 Lance 的关键路径。本章详解 WriteParams 配置、批量写入优化、事务处理和提交机制。 📊 第一部分:WriteParams 配置 W
探秘新一代向量存储格式Lance-format (七) 编码器与解码器实现
第7章:编码器与解码器实现 概述 编码器与解码器是 Lance 的高效率数据处理引擎。本章讨论编码器、解码器的设计、上下方案、优化策略。 编码器接口设计 Encoder 实例 解码器接口设计 Deco
探秘新一代向量存储格式Lance-format (一)Lance 项目概览与设计理念
第一章:Lance 项目概览与设计理念 核心概览 Lance 是一个面向多模态 AI 工作流的列式数据格式。它解决的根本问题是:如何在统一的存储格式中,高效地支持向量搜索、随机访问、SQL 查询和多模
探秘新一代向量存储格式Lance-format (八) Dataset 核心实现与生命周期
第8章:Dataset 核心实现与生命周期 概述 Dataset 是 Lance 的最高层抽象,提供了读写数据、版本管理、查询执行的统一接口。本章讨论 Dataset 的创建、打开、转换、混合整理。
探秘新一代向量存储格式Lance-format (十) Fragment 与数据分片
第10章:Fragment 与数据分片 🎯 核心概览 Fragment 是 Lance 数据集的逻辑分片单位,是在 Manifest 层面组织数据的关键。本章深入讲解 Fragment 的设计理念、组
探秘新一代向量存储格式Lance-format (九) 索引系统架构与向量搜索
9章:索引系统架构与向量搜索 概述 索引是 Lance 提供快速查询的核心。本章讨论索引系统设计、向量索引实现、向量搜索优化。 索引系统设计 Index Trait 接口 索引注册表 索引生命周期 索
探秘新一代向量存储格式Lance-format (十三) 数据更新与 Schema 演化
第13章:数据更新与 Schema 演化 🎯 核心概览 数据更新和 Schema 演化是现实系统的关键需求。Lance 支持无重写的列添加、类型转换和回填机制。 📊 第一部分:列的添加与删除 列添加(
探秘新一代向量存储格式Lance-format (十七) 向量索引 - HNSW 实现
第17章:向量索引 - HNSW 实现 🎯 核心概览 HNSW(Hierarchical Navigable Small World)是一种分层图结构,支持高效的向量搜索和增量索引。 📊 HNSW 原
探秘新一代向量存储格式Lance-format (十八) 向量量化技术
第18章:向量量化技术 🎯 核心概览 量化是向量压缩和加速的关键技术。通过牺牲极小的精度,换取 100 倍的空间节省和 10-100 倍的速度提升。 📊 三种主要量化方式 Product Quanti
探秘新一代向量存储格式Lance-format (二十一) SQL 查询支持
第21章:SQL 查询支持 🎯 核心概览 Lance 通过完整的 SQL 解析、规划和执行框架,提供对向量数据的 SQL 查询支持。用户可以使用熟悉的 SQL 语法进行向量搜索、标量过滤、联接等复杂操
探秘新一代向量存储格式Lance-format (二十六) 数据清理与压缩
第26章:数据清理与压缩 🎯 核心概览 随着数据的不断更新、删除,Lance 会产生大量的过期版本和碎片化文件。数据清理与压缩通过删除过期版本、合并小文件等操作,回收存储空间并提高查询性能。定期清理可
下一页