hyjump / torchL

learning for myself（chordPrediction開發者使用的個人庫）

00

torchL AILab

KL的人工智能实验室

[TOC]

所需库及其配置环境

python = 3.11
c++
anaconda3
pytorch = 2.2.2
torchaudio = 2.2.2
torchvision = 0.17.2
matplotlib = 3.8.0
numpy = 1.26.4
madmom = dev
scipy = 1.11.4
librosa = 0.10.1
jupyter = 1.0.0
spleeter
aubio

大体的研究方向

音频识别算法及其衍生应用场景
音乐序列生成式AI
NLP
- LSTM
- Transformer
- KAN
- Multi-Agent
计算机视觉
- CNN
- VAE

更新记录

2024.5.30

对音频进行预处理，转储结构化数据，生成“音乐风格识别算法”训练集，预处理动作如下：
1. 基于spleeter实现对音频进行乐器与人声分离；
2. 基于librosa和madmom实现对音高、节拍和简单和弦的特征提取；
3. 基于拍号分割柱式和弦的和声分析方法；
基于aubio，对音频进行fft分离（基于 c++的跨平台支持）
通过LSTM或HMM（隐马尔科夫）模型提高对音频复杂和弦的识别率。

关于chordPrediction项目：https://github.com/kinglegendzzh/chordPrediction
发布软件使用指南至B站，传送门：https://www.bilibili.com/video/BV1Ww4m1i7CN
研究基于musicpy提取主旋律与和弦，参考资料：https://musicpy.readthedocs.io/zh-cn/latest
使用HMM（隐马尔科夫）模型优化预测算法；
向量化的和弦情绪曲线识别；
前端方面放弃使用pyQT5，转向WebUI开发。

AIGC与游戏开发方面：
ComfyUI本地化部署，工作流原理研究；
Stable Diffusion v1.5，Stable Diffusion XL、lora等常见大模型的组合，搭建文生图工作流；
使用ComfyUI-3D-Pack、TripoSR等搭建2D转3D建模工作流；
对Godot游戏引擎，GDScript脚本API 进行熟悉与了解。
构建AI化的3D游戏场景设计工作流；
通过ollama构建本地大语言模型。

2024.5.8

目前涉及到的主要内容：

基于librosa识别数字音频提取MFCC特征
基于madmom识别数字音频实现和弦识别及节拍检测
基于on-hot的条件变分自编码器（包括炼丹日志）
变分自编码器（基于原始图像生成采样图像）
CNN经典现代网络模型的原理解构
基于LSTM（长时记忆）的循环神经网络

预计要进行的长期研究：

基于马尔科夫链的（深度）强化学习研究（Q-Leaning、DQN、HMM）
生成式对抗网络（GAN）的研究
基于注意力机制的Transformer模型的pytorch实现（LLM）

About

learning for myself（chordPrediction開發者使用的個人庫）

Languages

Language:Python 92.0%Language:C++ 2.6%Language:Jupyter Notebook 2.0%Language:C 1.3%Language:Batchfile 0.8%Language:Shell 0.7%Language:CMake 0.6%

Links

ProductDiscover

Data Powerby api.github.com. Remove your profile on the Giters? Go to settings.

Contact Site Admin: Giters.