Artificial Intelligence tutorial - IT technology blog

Hướng dẫn triển khai LLM inference với vLLM trên Linux: Tăng thông lượng và tiết kiệm VRAM

Bài viết này chia sẻ kinh nghiệm thực tế về triển khai LLM inference với vLLM trên Linux, nhằm tăng thông lượng và tiết kiệm VRAM. Nội dung hướng dẫn chi tiết từ cài đặt, cấu hình các tham số quan trọng đến kiểm tra và theo dõi hiệu năng, giúp bạn tối ưu hệ thống.
Artificial Intelligence tutorial - IT technology blog

Xây dựng hệ thống RAG với RAGFlow: Từ cài đặt đến triển khai production hiệu quả

Hệ thống RAG (Retrieval-Augmented Generation) giúp LLM trả lời chính xác hơn bằng cách truy xuất thông tin từ kho dữ liệu ngoài. RAGFlow là nền tảng giúp xây dựng, quản lý và triển khai RAG hiệu quả. Bài viết này hướng dẫn cài đặt RAGFlow, tạo ứng dụng RAG, cấu hình dữ liệu, LLM và triển khai API, tối ưu cho production.