evaluation

There are 14 repositories under evaluation topic.

mrgloom / awesome-semantic-segmentation
:metal: awesome-semantic-segmentation
benchmark deeplearning evaluation semantic-segmentation
10414
langfuse
langfuse / langfuse
🪢 Open source LLM engineering platform: Observability, metrics, evals, prompt management, playground, datasets. Integrates with LlamaIndex, Langchain, OpenAI SDK, LiteLLM, and more. 🍊YC W23
analytics evals evaluation gpt langchain large-language-models llama-index llm llm-evaluation llmops monitoring observability open-source openai playground prompt-engineering prompt-management self-hosted ycombinator
Language:TypeScript 4861
promptfoo / promptfoo
Test your prompts, agents, and RAGs. Use LLM evals to improve your app's quality and catch problems. Compare performance of GPT, Claude, Gemini, Llama, and more. Simple declarative configs with command line and CI/CD integration.
llm prompt-engineering prompts llmops prompt-testing testing rag evaluation evaluation-framework llm-eval llm-evaluation llm-evaluation-framework ci ci-cd cicd
Language:TypeScript 3661
Knetic / govaluate
Arbitrary expression evaluation for golang
go evaluation parsing expression
Language:Go 3622
open-compass / opencompass
OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
evaluation benchmark large-language-model chatgpt llm llama2 openai llama3
Language:Python 3348
evo
MichaelGrupp / evo
Python package for the evaluation of odometry and SLAM
benchmark euroc evaluation kitti mapping metrics odometry robotics ros ros2 slam trajectory trajectory-analysis trajectory-evaluation tum
Language:Python 3341
sdiehl / write-you-a-haskell
Building a modern functional compiler from first principles. (http://dev.stephendiehl.com/fun/)
book compiler evaluation functional-language functional-programming haskel hindley-milner intermediate-representation lambda-calculus pdf-book type type-checking type-inference type-system type-theory
Language:Haskell 3329
viebel / klipse
Klipse is a JavaScript plugin for embedding interactive code snippets in tech blogs.
clojure clojurescript interactive-snippets javascript code-evaluation ruby scheme prolog react reactjs klipse-plugin codemirror-editor evaluation python brainfuck lua ocaml reasonml common-lisp
Language:HTML 3101
CLUEbenchmark / SuperCLUE
SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
chatgpt chinese evaluation foundation-models gpt-4
2857
zzw922cn / Automatic_Speech_Recognition
End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow
automatic-speech-recognition tensorflow timit-dataset feature-vector phonemes data-preprocessing rnn audio deep-learning lstm end-to-end cnn rnn-encoder-decoder evaluation paper speech-recognition layer-normalization chinese-speech-recognition
Language:Python 2844
microsoft / promptbench
A unified evaluation framework for large language models
adversarial-attacks benchmark chatgpt evaluation large-language-models prompt prompt-engineering robustness
Language:Python 2287
ianarawjo / ChainForge
An open-source visual programming environment for battle-testing prompts to LLMs.
ai evaluation large-language-models llmops llms prompt-engineering
Language:TypeScript 2155
uptrain-ai / uptrain
UpTrain is an open-source unified platform to evaluate and improve Generative AI applications. We provide grades for 20+ preconfigured checks (covering language, code, embedding use-cases), perform root cause analysis on failure cases and give insights on how to resolve them.
autoevaluation evaluation experimentation hallucination-detection jailbreak-detection llm-eval llm-prompting llm-test llmops machine-learning monitoring openai-evals prompt-engineering root-cause-analysis
Language:Python 2109
huggingface / evaluate
🤗 Evaluate: A library for easily evaluating machine learning models and datasets.
evaluation machine-learning
Language:Python 1905
Cloud-CV / EvalAI
:cloud: :rocket: :bar_chart: :chart_with_upwards_trend: Evaluating state of the art in AI
ai ai-challenges angular7 angularjs artificial-intelligence challenge django docker evalai evaluation leaderboard machine-learning python reproducibility reproducible-research
Language:Python 1728
avalanche
ContinualAI / avalanche
Avalanche: an End-to-End Library for Continual Learning based on PyTorch.
benchmarks continual-learning continualai deep-learning evaluation framework library lifelong-learning metrics pytorch strategies training
Language:Python 1722
xinshuoweng / AB3DMOT
(IROS 2020, ECCVW 2020) Official Python Implementation for "3D Multi-Object Tracking: A Baseline and New Evaluation Metrics"
2d-mot-evaluation 3d-mot 3d-multi 3d-multi-object-tracking 3d-tracking computer-vision evaluation evaluation-metrics kitti kitti-3d machine-learning multi-object-tracking real-time robotics tracking
Language:Python 1650
pycm
sepandhaghighi / pycm
Multi-class confusion matrix library in Python
accuracy ai artificial-intelligence classification confusion-matrix data data-analysis data-mining data-science deep-learning deeplearning evaluation machine-learning mathematics matrix ml multiclass-classification neural-network statistical-analysis statistics
Language:Python 1441
MLGroupJLU / LLM-eval-survey
The official GitHub page for the survey paper "A Survey on Evaluation of Large Language Models".
benchmark evaluation large-language-models llm llms model-assessment
1333
tatsu-lab / alpaca_eval
An automatic evaluator for instruction-following language models. Human-validated, high-quality, cheap, and fast.
deep-learning evaluation foundation-models instruction-following large-language-models leaderboard nlp rlhf
Language:Jupyter Notebook 1331
Maluuba / nlg-eval
Evaluation code for various unsupervised automated metrics for Natural Language Generation.
bleu bleu-score cider dialog dialogue evaluation machine-translation meteor natural-language-generation natural-language-processing nlg nlp rouge rouge-l skip-thought-vectors skip-thoughts task-oriented-dialogue
Language:Python 1322
abo-abo / lispy
Short and sweet LISP editing
navigation evaluation refactoring emacs-lisp clojure common-lisp scheme python
Language:Emacs Lisp 1193
EthicalML / xai
XAI - An eXplainability toolbox for machine learning
ai artificial-intelligence bias bias-evaluation downsampling evaluation explainability explainable-ai explainable-ml feature-importance imbalance interpretability machine-learning machine-learning-explainability ml upsampling xai xai-library
Language:Python 1087
fuzzbench
google / fuzzbench
FuzzBench - Fuzzer benchmarking as a service.
fuzzing benchmarking benchmark-framework evaluation security
Language:Python 1075
lunary-ai / lunary
The production toolkit for LLMs. Observability, prompt management and evaluations.
ai evaluation hacktoberfest langchain llm logs monitoring observability openai prompts self-hosted testing
Language:TypeScript 964
torch-fidelity
toshas / torch-fidelity
High-fidelity performance metrics for generative models in PyTorch
evaluation frechet-inception-distance gan generative-model inception-score kernel-inception-distance metrics perceptual-path-length precision pytorch reproducibility reproducible-research
Language:Python 934
PRBonn / semantic-kitti-api
SemanticKITTI API for visualizing dataset, processing data, and evaluating results.
dataset deep-learning evaluation labels large-scale-dataset machine-learning semantic-scene-completion semantic-segmentation
Language:Python 742
open-compass / VLMEvalKit
Open-source evaluation toolkit of large vision-language models (LVLMs), support ~100 VLMs, 30+ benchmarks
chatgpt claude clip computer-vision evaluation gemini gpt gpt-4v gpt4 large-language-models llava llm multi-modal openai openai-api pytorch qwen vit vqa
Language:Python 721
PaesslerAG / gval
Expression evaluation in golang
evaluate-expressions evaluation expression-evaluator expression-language go godoc golang gval parser parsing
Language:Go 713
dbolya / tide
A General Toolbox for Identifying Object Detection Errors
error-detection errors evaluation instance-segmentation object-detection toolbox
Language:Python 699
CBLUEbenchmark / CBLUE
中文医疗信息处理基准CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
benchmark chineseblue corpus dataset chinese biomedical-tasks evaluation acl2022
Language:Python 696
prometheus-eval / prometheus-eval
Evaluate your LLM's response with Prometheus and GPT4 💯
evaluation gpt4 litellm llm llm-as-a-judge llm-as-evaluator llmops python vllm
Language:Python 694
bochinski / iou-tracker
Python implementation of the IOU Tracker
demo-script detrac evaluation iou-tracker mot python tracker tracking-by-detection ua-detrac
Language:Python 690
Xnhyacinth / Awesome-LLM-Long-Context-Modeling
📰 Must-read papers and blogs on LLM based Long Context Modeling 🔥
agent awsome-list benchmark blogs compress evaluation large-language-models length-extrapolation llm long-context-modeling long-term-memory papers rag ssm survey transformer
635
codingseb / ExpressionEvaluator
A Simple Math and Pseudo C# Expression Evaluator in One C# File. Can also execute small C# like scripts
expression-evaluator evaluation math expression evaluate parser mathematical-expressions-evaluator mathematical-expressions script scripting evaluator csharp-script eval execute executescript evaluate-expressions expression-parser fluid calculations reflection
Language:C# 575
autoprompt
ucinlp / autoprompt
AutoPrompt: Automatic Prompt Construction for Masked Language Models.
nlp language-model evaluation
Language:Python 570