Sekyoro的博客小屋

Agentic RAG and LLMs-based assistant

发表于 2024-12-26 更新于 2024-12-31
3k 11 分钟

既text2img和大语言模型之后的热点,AI Agent和RAG,简单来说在既有的多模态大模型基础上打造应用,比如利用多个智能体以及外部数据进行搜索. 目前来看还是有一些发展潜力,这方面的资料多见于Hugging Face,LangChain,llama index等等

阅读全文 »

OpenGL中不可忽视的部分:glsl、glm、assimp以及更多

发表于 2024-12-25 更新于 2025-01-06
7.4k 27 分钟

在OpenGL中着色器的编程语言叫做GLSL,类似C语言但是内置了许多有用的函数. 这里简单学习其基础语法和包含特殊函数.

阅读全文 »

从C++模板谈起

发表于 2024-12-09 更新于 2024-12-13
6k 22 分钟

C++的模板编程是学习C++不可或缺的一部分,说来讽刺,这部分在Rust中实现得很优雅.

阅读全文 »

vqvae及其变体代码学习

发表于 2024-11-18 更新于 2024-11-22
2.5k 9 分钟

vqvae出自[1711.00937] Neural Discrete Representation Learning,用于无监督学习离散表征,目前在多模态生成领域还有使用. 这里学习一下代码

阅读全文 »

在较早的VAE和GAN时代,通过图形生成模型,可能出现模式坍塌(个人理解就是生成图像多样性不足)并且只有图像数据参与,在之后的diffusion时代(包括现在),有了多模态的加入,通过文本、深度图以及骨骼图(e.g.ControlNet)控制图像生成有了更高的自由度和创造性.此外有了类似LoRA,IP-Adapter等等技术提供了更好的微调方式用于在更新模型权重保持良好的风格迁移(比如原本模型训练集中没有的人物,在微调时增加新人物训练能有良好表现)或人物一致性(不同的角色不至于长得一样)

而在最近有了更多在一些较大模型(stable diffusionv3,novelai,sdxl等)上微调的模型,它们更加专注于某种画风。此外本文尝试总结目前文生图、艺术图片等生成式AI应用,最后从图片展望生成式视频创作。相对于论文、原理，这里更注重模型与应用。

阅读全文 »