Embedding Database

January 2025

Embedding Database

向量数据库	URL	GitHub Star	Language
chroma	https://github.com/chroma-core/chroma	7.4K	Python
milvus	https://github.com/milvus-io/milvus	21.5K	Go/Python/C++
pinecone	https://www.pinecone.io/	❌	❌
qdrant	https://github.com/qdrant/qdrant	11.8K	Rust
typesense	https://github.com/typesense/typesense	12.9K	C++
weaviate	https://github.com/weaviate/weaviate	6.9K	Go
Viking DB	https://www.volcengine.com/docs/84313/1254439	❌	❌

what are embeddings?

https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

vikingdb

https://python.langchain.com/docs/integrations/vectorstores/vikingdb/

VikingDB通常指的是火山引擎上线的一款云原生向量数据库。以下是关于它的一些详细介绍：

特点

极致性能：内置多种火山引擎内部自研索引算法，支持内部多个百亿库，百亿级向量检索规模，检索性能在10ms内。
实时性：支持向量数据实时写入、实时更新，支持实时索引、自动索引。
稳定高效：存算分离架构，单数据多场景，节约计算资源，提高在线稳定性，保证高可用性。
多场景最佳实践：有20多种内部业务，多个百亿级别库检索实践，在内部多个大模型场景落地实践，例如飞书问答、飞书文档、搜索中台、电商搜索等。

应用场景

经过抖音集团内部的技术实践，VikingDB向量数据库目前已经覆盖50多条业务线，基本支撑了内部所有的向量检索场景。比如：

智能搜索：助力快速准确地从海量数据中找到用户所需内容。
AIGC跨模态检索：方便在不同模态数据（如图像、文本等）之间进行关联检索。
推荐和去重：基于向量的相似性分析，为用户提供个性化推荐，并实现数据去重。
智能问答：帮助理解用户问题语义，快速给出准确答案。
相关排序：根据向量相关性对搜索结果等进行排序。
聚类分析和数据挖掘：发现数据中的潜在规律和模式。

技术优势

架构层面：从存算一体、在离线一体逐步演进为存算分离、在离线分离；支持平台化、无服务化、数据生态的融合等。
性能层面：支持int4/int8/fix16等多种量化方式、基于指令集的计算优化、gpu加速等。
产品特性层面：除了基础的近似最近邻（ANN）检索功能外，还支持hybrid（dense&sparse）检索、磁盘索引（diskann）、基于向量的粗排打散等。

###ßß# 与LangChain的结合 VikingDB可以与LangChain集成，在LangChain中，VikingDB作为一种向量存储方式，提供了一系列方法来操作和管理向量数据。比如可以通过 <代码开始>from_documents<代码结束>方法从文档创建VikingDB实例，并将文档的嵌入向量存储其中，之后可以使用 <代码开始>from_documents similarity_search<代码结束>等方法进行相似性搜索查询。

Chroma DB

易用性：
- 以其简单易用著称，安装和配置相对轻松，对于初学者和小型项目来说，上手门槛较低。
- API 设计简洁直观，方便开发者快速集成到应用程序中，尤其是在与一些流行的机器学习和自然语言处理框架（如 Langchain）结合时，能快速搭建起原型系统。
轻量级：
- 对硬件资源的要求相对较低，在资源有限的环境中（如本地开发机器、小型服务器）也能良好运行，不会给系统带来过大的负担。
- 内存占用相对较小，适合处理中小规模的向量数据，但也具备一定的可扩展性，可以应对数据量逐渐增长的情况。
数据管理：
- 提供了灵活的数据模型，能够方便地存储和管理各种类型的数据向量，包括文本、图像、音频等的向量表示。
- 支持数据的添加、更新和删除等操作，并且在数据操作的过程中，能够保持较好的性能和稳定性。

Milvus

高性能和可扩展性：
- 专为大规模向量数据处理而设计，能够处理海量的向量数据，在数据量达到数十亿甚至更多时，仍能保持较高的查询性能和稳定性。
- 支持分布式架构，可以轻松地在多个节点上进行部署和扩展，通过水平扩展来应对不断增长的数据量和查询负载，适合大型企业级应用和对性能要求极高的场景。
丰富的功能和优化：
- 提供了多种索引类型和相似度搜索算法，开发者可以根据具体的应用场景和数据特点选择最合适的索引和算法，以优化查询性能。
- 在数据插入、更新和查询等方面进行了深度优化，能够实现高效的并发处理，满足高并发访问的需求，例如在实时推荐系统、大规模图像检索等场景中表现出色。
生态系统和社区支持：
- 拥有较为活跃的开源社区，有大量的开发者和用户在使用和贡献，遇到问题时可以更容易地在社区中找到解决方案和参考案例。
- 与许多大数据处理和机器学习工具链有较好的集成，能够融入到复杂的数据处理和分析流程中，为企业的数据基础设施提供有力支持。

总的来说，如果你的项目规模较小，对易用性和轻量级有较高要求，Chroma DB 可能是一个不错的选择；而如果需要处理大规模向量数据，对性能、可扩展性和功能丰富性有严格要求，Milvus 则更具优势。两者都在各自的领域发挥着重要作用，开发者可以根据具体的应用场景和需求来选择适合的向量数据库。