vision

There are 44 repositories under vision topic.

BVLC / caffe
Caffe: a fast open framework for deep learning.
deep-learning machine-learning vision
Language:C++ 33985
danny-avila / LibreChat
Enhanced ChatGPT Clone: Features OpenAI, Assistants API, Azure, Groq, GPT-4 Vision, Mistral, Bing, Anthropic, OpenRouter, Vertex AI, Gemini, AI model switching, message search, langchain, DALL-E-3, ChatGPT Plugins, OpenAI Functions, Secure Multi-User System, Presets, completely open-source for self-hosting. More features in development
ai bing chatgpt clone plugins search chatgpt-clone librechat langchain anthropic claude azure dall-e-3 gpt-4-vision openai vision google gemini webui assistant-api
Language:TypeScript 15647
PaddleHub
PaddlePaddle / PaddleHub
Awesome pre-trained models toolkit based on PaddlePaddle. (400+ models including Image, Text, Audio, Video and Cross-Modal with Easy Inference & Serving)
awesome deep-learning model nlp text2image vision
Language:Python 12622
react-native-vision-camera
mrousavy / react-native-vision-camera
📸 A powerful, high-performance React Native Camera library.
ai android barcode camera instagram ios javascript jsi library native qr qrcode react react-native react-native-camera scanner snapchat typescript vision worklet
Language:Swift 6988
Skyvern-AI / skyvern
Automate browser-based workflows with LLMs and Computer Vision
api automation browser browser-automation computer gpt llm playwright python rpa vision workflow
Language:Python 5495
Dooy / chatgpt-web-midjourney-proxy
One UI is all done with chatgpt web, midjourney, gpts,suno-v3,luma ; Simultaneous support Web / PWA / Linux / Win / MacOS platform
chatgpt-ui chatgpt-web midjourney midjourney-api midjourney-ui gpts gptstore gpts-ui whisper-ui suno-v3 claude-3 suno vision gpt-4o luma
Language:JavaScript 4204
iOS-11-by-Examples
artemnovichkov / iOS-11-by-Examples
👨🏻‍💻 Examples of new iOS 11 APIs
arkit core-nfc coreml ios11 swift vision xcode9
Language:Swift 3317
donkeycar
autorope / donkeycar
Open source hardware and software platform to build a small scale self driving car.
cv2 donkeycar jetson-nano keras python raspberry-pi self-driving-car tensorflow vision
Language:Python 3076
sightmachine / SimpleCV
The Open Source Framework for Machine Vision
computer-vision cv image-processing python vision visionprocessing
Language:Python 2678
NextLevel / NextLevel
⬆️ Media Capture in Swift
ar arkit augmented-reality avfoundation camera capture coreimage custom instagram ios media mixed-reality nextlevel photography snapchat swift tiktok video vision
Language:Swift 2177
GoogleCloudPlatform / java-docs-samples
Java and Kotlin Code samples used on cloud.google.com
java kotlin appengine auth automl cdn vision video translate samples
Language:Java 1735
andyzeng / tsdf-fusion-python
Python code to fuse multiple RGB-D images into a TSDF voxel volume.
rgbd tsdf kinect-fusion depth-camera 3d-deep-learning volumetric-data cuda 3d-reconstruction 3d vision artificial-intelligence
Language:Python 1186
roatienza / Deep-Learning-Experiments
Videos, notes and experiments to understand deep learning
artificial-intelligence deep-learning deep-learning-tutorial nlp pytorch speech vision
Language:Jupyter Notebook 1090
KevinGong2013 / ChineseIDCardOCR
[Deprecated] 🇨🇳**二代身份证光学识别
cnn coreml deep-learning ios11 machine-learning swift vision xcode
Language:Swift 1025
lucidrains / mlp-mixer-pytorch
An All-MLP solution for Vision, from Google AI
deep-learning vision
Language:Python 977
OpenFind
aheze / OpenFind
An app to find text in real life.
app camera find hacktoberfest ios ocr photos realm swift swiftui uikit vision
Language:Swift 959
andyzeng / visual-pushing-grasping
Train robotic agents to learn to plan pushing and grasping actions for manipulation with deep reinforcement learning.
3d artificial-intelligence computer-vision deep-learning deep-reinforcement-learning grasping manipulation pushing robotics vision
Language:Python 884
deepdrive
deepdrive / deepdrive
Deepdrive is a simulator that allows anyone with a PC to push the state-of-the-art in self-driving
competition control deep-learning deep-reinforcement-learning gym python reinforcement-learning self-driving-car sensorimotor simulation tensorflow transfer-learning unreal-engine vision
Language:Python 883
jenly1314 / MLKit
🌝 MLKit是一个强大易用的工具包。通过ML Kit您可以很轻松的实现文字识别、条码识别、图像标记、人脸检测、对象检测等功能。
android barcode-scanning camerax face-detection image-labeling machine-learning machine-learning-library mlkit object-detection object-recognition ocr pose-detection qrcode recognition segmentation-selfie text-recognition vision
Language:Java 873
anupamchugh / iowncode
A curated collection of iOS, ML, AR resources sprinkled with some UI additions
alamofire arkit computer-vision coreml coremltools ios keras ml-kit natural-language-processing nlp realitykit swift swiftui vision vision-framework
Language:Swift 869
AravisProject / aravis
A vision library for genicam based cameras
c camera genicam gige glib gobject gobject-introspection gstreamer gtk3 meson usb3 video vision
Language:C 844
Celebrandil / CudaSift
A CUDA implementation of SIFT for NVidia GPUs (1.2 ms on a GTX 1060)
cuda gpu nvidia sift vision
Language:Cuda 843
andyzeng / 3dmatch-toolbox
3DMatch - a 3D ConvNet-based local geometric descriptor for aligning 3D meshes and point clouds.
3d 3d-deep-learning 3dmatch artificial-intelligence computer-vision deep-learning geometry-processing point-cloud rgbd vision
Language:C++ 825
onmyway133 / awesome-machine-learning
🎰 A curated list of machine learning resources, preferably CoreML
core-ml machine learning model ai vision language processing augmented reality
803
2013fangwentao / Multi_Sensor_Fusion
Multi-Sensor Fusion (GNSS, IMU, Camera) 多源多传感器融合定位 GPS/INS组合导航 PPP/INS紧组合
camera fusion gnss gps imu multi-sensor navigation ppp vio vision
Language:C++ 787
jasmcaus / caer
High-performance Vision library in Python. Scale your research, not boilerplate.
python vision artificial-intelligence machine-learning neural-network deep-learning gpu ai data-science image-processing video-processing caer augmentation computer-vision opencv cuda type-checking segmentation image-classification image-segmentation
Language:Python 754
andyzeng / tsdf-fusion
Fuse multiple depth frames into a TSDF voxel volume.
3d 3d-deep-learning 3d-reconstruction artificial-intelligence cuda depth-camera kinect-fusion rgbd tsdf vision volumetric-data
Language:Cuda 716
evilgix / Evil
Optical Character Recognition in Swift for iOS&macOS. 银行卡、身份证、门牌号光学识别
cnn-model keras machine-learning ocr swift4 vision
Language:Swift 689
lucidrains / bottleneck-transformer-pytorch
Implementation of Bottleneck Transformer in Pytorch
artificial-intelligence deep-learning transformers attention-mechanism image-classification vision
Language:Python 669
louis030195 / screen-pipe
Library to build personalized AI powered by what you've seen, said, or heard. Works with Ollama. Alternative to Rewind.ai. Open. Secure. You own your data. Rust.
ai computer-vision llm machine-learning ml multimodal vision
Language:Rust 597
cary-sas / v2ray_bin
梅林380 固件的魔改科学上网插件
koolshare shadowsocks vmess vless trojan-go xray v2ray ss ssr trojan grpc naiveproxy armv5 asuswrt-merlin shadowsocks-2022 xtls reality vison vision hysteria2
Language:Classic ASP 575
myvision
OvidijusParsiunas / myvision
Computer vision based ML training data generation tool :rocket:
ml machine-learning computer-vision object-detection training-data annotation labelling annotation-tool coco vgg tensorflow yolo model vision image-annotation label labeling-tool tagging image ai
Language:JavaScript 573
anki / vector-python-sdk
Anki Vector Python SDK
ai anki robot robotics vector vision
Language:Python 557
RobotLocomotion / pytorch-dense-correspondence
Code for "Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation"
pytorch robotics manipulation computer-vision deep-learning 3d vision artificial-intelligence self-supervised-learning
Language:Python 555
google-research / ravens
Train robotic agents to learn pick and place with deep learning for vision-based manipulation in PyBullet. Transporter Nets, CoRL 2020.
deep-learning robotics manipulation pick-and-place computer-vision artificial-intelligence vision rearrangement reinforcement-learning imitation-learning tensorflow openai-gym transporter-nets pybullet
Language:Python 543
davidbau / rewriting
Rewriting a Deep Generative Model, ECCV 2020 (oral). Interactive tool to directly edit the rules of a GAN to synthesize scenes with objects added, removed, or altered. Change StyleGANv2 to make extravagant eyebrows, or horses wearing hats.
deep-learning gans graphics hci machine-learning research vision
Language:Python 537

vision

BVLC / caffe

danny-avila / LibreChat

PaddlePaddle / PaddleHub

mrousavy / react-native-vision-camera

Skyvern-AI / skyvern

Dooy / chatgpt-web-midjourney-proxy

artemnovichkov / iOS-11-by-Examples

autorope / donkeycar

sightmachine / SimpleCV

NextLevel / NextLevel

GoogleCloudPlatform / java-docs-samples

andyzeng / tsdf-fusion-python

roatienza / Deep-Learning-Experiments

KevinGong2013 / ChineseIDCardOCR

lucidrains / mlp-mixer-pytorch

aheze / OpenFind

andyzeng / visual-pushing-grasping

deepdrive / deepdrive

jenly1314 / MLKit

anupamchugh / iowncode

AravisProject / aravis

Celebrandil / CudaSift

andyzeng / 3dmatch-toolbox

onmyway133 / awesome-machine-learning

2013fangwentao / Multi_Sensor_Fusion

jasmcaus / caer

andyzeng / tsdf-fusion

evilgix / Evil

lucidrains / bottleneck-transformer-pytorch

louis030195 / screen-pipe

cary-sas / v2ray_bin

OvidijusParsiunas / myvision

anki / vector-python-sdk

RobotLocomotion / pytorch-dense-correspondence

google-research / ravens

davidbau / rewriting