unstructured-data

There are 7 repositories under unstructured-data topic.

fiftyone
voxel51 / fiftyone
The open-source tool for building high-quality datasets and computer vision models
active-learning artificial-intelligence computer-vision data-centric-ai data-cleaning data-curation data-quality data-science deep-learning developer-tools image-classification machine-learning object-detection python unstructured-data vector-search visualization
Language:Python 7921
towhee-io / towhee
Towhee is a framework that is dedicated to making neural data processing pipelines simple and fast.
machine-learning convolutional-networks embedding-vectors embeddings computer-vision image-processing video-processing feature-extraction image-retrieval unstructured-data feature-vector transformer milvus towhee vision-transformer vit pipeline llm
Language:Python 3090
instill-core
instill-ai / instill-core
🔮 Instill Core is a full-stack AI infrastructure tool for data, model and pipeline orchestration, designed to streamline every aspect of building versatile AI-first applications
ai api cli developer-tools etl generative-ai golang gpt hacktoberfest llm low-code no-code open-source pipeline python stable-diffusion typescript unstructured-data
Language:Makefile 2024
milvus-io / bootcamp
Dealing with all unstructured data, such as reverse image search, audio search, molecular search, video analysis, question and answer systems, NLP, etc.
milvus unstructured-data benchmark-testing image-search audio-search question-answering deep-learning nlp image-classification image-recognition python hacktoberfest
Language:HTML 1732
neo4j-labs / llm-graph-builder
Neo4j graph construction from unstructured data using LLMs
data-import genai graph graph-rag graph-search graphdb graphrag knowledge-graph langchain neo4j rag unstructured-data vectordb
Language:Jupyter Notebook 1459
tstanislawek / awesome-document-understanding
A curated list of resources for Document Understanding (DU) topic
awesome-list machine-learning information-extraction key-information-extraction document-understanding robotic-process-automation document-analysis document-layout-analysis ocr natural-language-processing deep-learning nlp awesome pdf rpa pdf-documents document-intelligence unstructured-data intelligent-processing document-ai
1209
nomic-ai / nomic
Interact, analyze and structure massive text, image, embedding, audio and video datasets
clustering duplicate-detection embeddings python text topic-modeling unstructured-data
Language:Python 1166
Renumics / spotlight
Interactively explore unstructured datasets from your dataframe.
audio computer-vision data-centric-ai data-curation data-visualization exploratory-data-analysis hacktoberfest images machine-learning meshes timeseries unstructured-data video
Language:TypeScript 1075
dingodb / dingo
A multi-modal vector database that supports upserts and vector queries using unified SQL (MySQL-Compatible) on structured and unstructured data, while meeting the requirements of high concurrency and ultra-low latency.
serving embedding-store vector-database mysql-compatibility embedding-search key-value-distributed-store vector-ocean unified-sql structured-data unstructured-data real-time-semantic-search
Language:Java 978
lilac
lilacai / lilac
Curate better data for LLMs
artificial-intelligence data-analysis dataset-analysis unstructured-data
Language:Python 906
amphi-ai / amphi-etl
Low-code ETL for structured and unstructured data. Generates Python code you can deploy anywhere.
data data-pipelines etl rag-pipeline structured-data unstructured-data
Language:TypeScript 656
nucliadb
nuclia / nucliadb
NucliaDB, The AI Search database for RAG
ai-powered-search database language-model machine-learning mlops nuclia python rust search search-engine search-engines semantic semantic-search-engine text-classification unstructured-data vector-search vector-search-engine vectors
Language:Python 613
unstract
Zipstack / unstract
No-code LLM Platform to launch APIs and ETL Pipelines to structure unstructured documents
etl-pipeline llm-platform unstructured-data
Language:Python 391
embedding_studio
EulerSearch / embedding_studio
Embedding Studio is a framework which allows you transform your Vector Database into a feature-rich Search Engine.
embeddings embeddings-similarity fine-tuning llm-inference query-parser search-algorithm search-engine semantic-similarity unstructured-data unstructured-search vector-database search-query-parser
Language:Python 375
garyelephant / pygrok
python implementation of jordansissel's grok regular expression library
grok python parse-strings unstructured-data extract-information
Language:Python 275
automorphic-ai / trex
Enforce structured output from LLMs 100% of the time
etl json large-language-models llm regex unstructured-data
Language:Python 239
fzliu / radient
Radient turns many data types (not just text) into vectors for similarity search, RAG, regression analysis, and more.
audio embeddings fraud-detection graphs images molecular-search molecules recommender-system text vectors image-search milvus semantic-search similarity-search vector-database etl retrieval-augmented-generation multimodal-rag unstructured-data unstructured-data-processing
Language:Python 239
RelevanceAI / relevanceai
Home of the AI workforce - Multi-agent system, AI agents & tools
python vector-database nlp search-engine embeddings vector-search clustering search unstructured-data computer-vision natural-language-processing
Language:Python 110
CambioML / any-parser
Accurate, private and configurable document retrieval LLM
data-extraction document llm pdf privacy structured-data unstructured-data
Language:Python 104
jostmey / dkm
Dynamic Kernel Matching (DKM) for Classifying Data with Non-conforming Features
dkm genomics machine-learning nonconforming-data repertoire statistical-classifiers tcell-receptors unstructured-data
Language:HTML 95
BartJongejan / Bracmat
Programming language for symbolic computation with unusual combination of pattern matching features: Tree patterns, associative patterns and expressions embedded in patterns.
pattern-matching semi-structured-data programming-language xml json symbolic-computation language-technology natural-language-processing high-level-language rosettacode html computer-algebra differentiation structured-data unstructured-data tree-structure bignumbers epoc gcc expression-evaluator
Language:C 47
IBM / pixiedust-facebook-analysis
A Jupyter notebook that uses the Watson Visual Recognition and Natural Language Understanding services to enrich Facebook Analytics and uses Cognos Dashboard Embedded to explore and visualize the results in Watson Studio
watson-visual-recognition watson-natural-language jupyter-notebook data-science ibmcode ibm-developer-technology-cognitive notebook watson-studio enriched-data watson-services watson-apis unstructured-data pandas-dataframe watson-api watson natural-language
Language:Jupyter Notebook 43
instill-ai / console
📺 Instill Console for 🔮 Instill Core: https://github.com/instill-ai/instill-core
no-code console computer-vision deep-learning unstructured-data frontend data-connector ui vdp object-detection image-classification structured-data vision-ai data-pipeline model-serving versatile-data-pipeline hacktoberfest
Language:TypeScript 29
adansons / base
Adansons Base is a data programming tool for error-analysis of training results. It organizes metadata of unstructured data and creates and organizes datasets. It makes dataset creation more effective and helps to find low-quality data by using the training results and improves AI performance.
artificial-intelligence data-management database machine-learning unstructured-data
Language:Jupyter Notebook 28
chaitjo / knowledge-graphs
Building Knowledge Graphs from Unstructured Text
knowledge-graph networkx neuralcoref spacy unstructured-data wikipedia
Language:Jupyter Notebook 22
cli
instill-ai / cli
⌨️ Instill CLI for 🔮 Instill Core: https://github.com/instill-ai/instill-core
cli golang deep-learning unstructured-data api-first low-code data-pipeline go hacktoberfest etl
Language:Go 21
instill-ai / deprecated-model
⚗️ Instill Model contains components for AI model orchestration
developer-tools etl low-code no-code open-source unstructured-data hacktoberfest ai api cli generative-ai golang gpt llm pipeline python stable-diffusion typescript
Language:Makefile 20
instill-ai / pipeline-backend
⇋ A REST/gRPC server for Instill VDP API service
unstructured-data api-first grpc low-code data-connector structured-data go rest integration golang hacktoberfest
Language:Go 18
instill-ai / model-backend
⇋ A REST/gRPC server for Instill Model API service
unstructured-data api-first grpc low-code data-connector structured-data go rest integration golang hacktoberfest
Language:Go 16
TuanaCelik / unstructuredio-haystack
💙 Unstructured Data Connectors for Haystack 2.0
haystack llm nlp python unstructured-data
Language:Python 16
jokruger / rl3examples
RL3 examples repository (information extraction, NER, NLP, web & text mining, etc).
rl3 information-extraction named-entity-recognition natural-language-processing web-mining text-mining parsing ner nlp unstructured-data
Language:Python 14
floriancochard / extract-data-from-paper
Extract tabular information from scanned documents (PDF to CSV)
ocr extract-data computer-vision opencv unstructured-data data-extraction historical-data historical-weather pdf-to-csv
13
IBM / generate-insights-from-data-formats-with-watson
How do we process data in different formats like docx, pdf etc and generate insights to be linked with structured data in database?This pattern helps in establishing relations between structured & unstructured data to generate recommendations using Watson NLU & Watson Studio.
artificial-intelligence data-science nlp text-mining self-learning recommender-system cloud-computing pdf-document-processor unstructured-data watson watson-studio watson-natural-language ibm-cloud watson-nlu natural-language jupyter-notebook
Language:Jupyter Notebook 13
instill-ai / deprecated-core
🔮 Instill Core contains components for supporting Instill VDP and Instill Model
developer-tools etl low-code no-code open-source unstructured-data hacktoberfest ai api cli generative-ai golang gpt llm pipeline python stable-diffusion typescript
Language:Makefile 13
nicbet / infozilla
The infoZilla unstructured software engineering data mining tool. It can find and extract source code regions, patches, stack traces, enumerations and itemizations from discussion threads.
bugreport bugzilla data-mining data-science tools unstructured-data
Language:Java 13
SachinKalsi / html_tag_annotator
A Machine Learning tool to create the training dataset very quickly & easily by using a smart chrome extension
annotations text-annotation html-tag-annotation unstructured-data generate-training-data machine-learning html-text-annotator scraper harvest train-dataset chrome-extension
Language:JavaScript 12