multimodel-large-language-model topics

echoOLlama

124

Stars

4

Forks

124

Watchers

🦙 echoOLlama: A real-time voice AI platform powered by local LLMs. Features WebSocket streaming, voice interactions, and OpenAI API compatibility. Built with FastAPI, Redis, and PostgreSQL. Perfect f...

theboringhumane

agent

docker

docker-compose

fastapi

TVC

144

Stars

0

Forks

144

Watchers

[ACL 2025] The code repository for "Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning" in PyTorch.

sun-hailong

cot

forgetting

mllms

multimodel-large-language-model

RoboBrain2.0

742

Stars

63

Forks

742

Watchers

RoboBrain 2.0: Advanced version of RoboBrain. See Better. Think Harder. Do Smarter. 🎉🎉🎉

FlagOpen

embodied-ai

multimodel-large-language-model

UI-Venus

606

Stars

35

Forks

606

Watchers

UI-Venus is a native UI agent designed to perform precise GUI element grounding and effective navigation using only screenshots as input.

inclusionAI

grounding

multimodel-large-language-model

reinforcement-learning

ui-agent

Seg-Zero

582

Stars

28

Forks

582

Watchers

Project Page For "Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement"

dvlab-research

multimodal

multimodel-large-language-model

reasoning-language-models

reinforcement-learning

Robust-R1

383

Stars

6

Forks

383

Watchers

🔥🔥🔥[AAAI 2026 Oral] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

jqtangust

large-language-models

multi-modal

multimodel-large-language-model

reasoning

UME-Search

74

Stars

4

Forks

74

Watchers

Toward Universal Multimodal Embedding

BIGBALLON

composed-image-retrieval

image-retrieval

image-search

information-retrieval

Basic-Visual-Language-Model

47

Stars

8

Forks

47

Watchers

Build a simple basic multimodal large model from scratch. 从零搭建一个简单的基础多模态大模型🤖

xinyanghuang7

large-language-models

multimodel-large-language-model

visual-language-learning

visual-language-models