Xây dựng Semantic Search với Python: Khi máy tính thực sự ‘hiểu’ ý người dùng – ITFROMZERO

Table of Contents

Vấn đề: Tại sao tìm kiếm theo từ khóa (Keyword Search) là chưa đủ?

Nếu bạn đang code tính năng tìm kiếm bằng LIKE %keyword% trong SQL hoặc Elasticsearch kiểu truyền thống, chắc chắn bạn đã gặp bài toán oái oăm: người dùng không nhập đúng từ khóa trong database. Thực tế, khoảng 30% lượt tìm kiếm thất bại chỉ vì lệch từ đồng nghĩa hoặc khác cách diễn đạt.

Lấy ví dụ: Database của bạn lưu câu “Hướng dẫn nấu phở bò”. Nếu khách gõ “cách làm món ăn truyền thống Việt Nam”, các hệ thống cũ thường trả về kết quả trống trơn. Đây là lúc chúng ta cần đến Semantic Search (Tìm kiếm ngữ nghĩa). Kỹ thuật này giúp máy tính hiểu được ý nghĩa ẩn sau câu chữ thay vì chỉ đi đếm mặt chữ khô khan.

Quick Start: Xây dựng hệ thống tìm kiếm thông minh trong 5 phút

Để bắt đầu, chúng ta sẽ dùng thư viện sentence-transformers. Đây là một bộ công cụ mạnh mẽ dựa trên HuggingFace, giúp việc xử lý ngôn ngữ tự nhiên (NLP) trở nên đơn giản hơn bao giờ hết.

1. Cài đặt thư viện

Bạn chỉ cần mở terminal và chạy lệnh cài đặt các gói cần thiết:

pip install sentence-transformers torch

2. Script tìm kiếm thực tế

Dưới đây là đoạn code mình đã tối ưu để bạn có thể chạy ngay và kiểm chứng kết quả:

from sentence_transformers import SentenceTransformer, util

# 1. Tải model đa ngôn ngữ (Multilingual)
# Model này xử lý tiếng Việt cực tốt và nhẹ máy
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 2. Tập dữ liệu mẫu
documents = [
    "Cách nấu phở bò gia truyền ngon tại nhà",
    "Lập trình Python cơ bản cho người mới bắt đầu",
    "Thời tiết hôm nay tại Hà Nội rất đẹp",
    "Hướng dẫn sử dụng các thư viện AI trong Python",
    "Món ăn ngon nhất thế giới là gì?"
]

# 3. Chuyển database sang dạng Vector (Embedding)
document_embeddings = model.encode(documents)

# 4. Câu truy vấn của người dùng
query = "Tôi muốn học code AI bằng ngôn ngữ Python"
query_embedding = model.encode(query)

# 5. Tìm kiếm kết quả sát nghĩa nhất bằng Cosine Similarity
hits = util.semantic_search(query_embedding, document_embeddings, top_k=2)

print(f"Câu hỏi: {query}")
for hit in hits[0]:
    print(f"- Kết quả: {documents[hit['corpus_id']]} (Score: {hit['score']:.4f})")

Kết quả sẽ khiến bạn bất ngờ. Dù câu truy vấn có cụm “code AI” không hề xuất hiện trong database, hệ thống vẫn tự hiểu nó liên quan nhất đến câu “Hướng dẫn sử dụng các thư viện AI trong Python”. Đó chính là giá trị của Embedding.

Giải thích kỹ thuật: Phép toán đằng sau ngữ nghĩa

Khái niệm Vector Embedding

Hãy tưởng tượng mỗi câu văn là một tọa độ trong không gian nhiều chiều. Những câu có nghĩa tương đương sẽ nằm sát cạnh nhau, còn những câu lạc quẻ sẽ bị đẩy ra xa. Model Sentence-Transformers đóng vai trò như một bộ biên dịch, biến chuỗi ký tự (String) thành một mảng số thực (Vector) đại diện cho ý nghĩa của nó.

Cơ chế Cosine Similarity

Sau khi có tọa độ, việc tìm kiếm thực chất là bài toán tính góc giữa hai vector. Góc càng nhỏ (Cosine Similarity càng gần 1), hai câu đó càng giống nhau về mặt nội dung. Toàn bộ phần toán học phức tạp này đã được thư viện xử lý gọn gàng trong một dòng lệnh.

Tại sao nên chọn Model đa ngôn ngữ?

Kinh nghiệm thực tế cho thấy các model chuẩn như all-MiniLM-L6-v2 thường chỉ giỏi tiếng Anh. Trong khi đó, model paraphrase-multilingual-MiniLM-L12-v2 mình dùng ở trên đã được huấn luyện trên hàng chục ngôn ngữ. Nhờ vậy, nó hiểu được mối quan hệ từ vựng tiếng Việt một cách rất tự nhiên.

Nâng cao: Xử lý tập dữ liệu hàng triệu dòng

Đoạn code trên chạy rất nhanh với vài chục dòng dữ liệu. Tuy nhiên, nếu database của bạn lên đến hàng triệu bản ghi, việc so sánh thủ công từng cặp vector sẽ khiến server bị quá tải ngay lập tức.

Để tối ưu, mình thường kết hợp với FAISS (Facebook AI Similarity Search). Công cụ này cho phép tìm kiếm trong tập dữ liệu 1 triệu vector chỉ trong chưa đầy 10ms trên một CPU thông thường.

# Cài đặt: pip install faiss-cpu
import faiss

d_size = document_embeddings.shape[1]
index = faiss.IndexFlatL2(d_size)
index.add(document_embeddings)

# Tìm kiếm 2 kết quả gần nhất trong nháy mắt
D, I = index.search(query_embedding.reshape(1, -1), 2)

Kinh nghiệm thực tế khi triển khai

Dùng Hybrid Search: Đừng vội bỏ tìm kiếm từ khóa. Hệ thống tối ưu nhất thường kết hợp cả hai: dùng BM25 để lấy kết quả chính xác tuyệt đối và Semantic Search để bù đắp các kết quả liên quan về ý nghĩa.
Tăng tốc bằng Pre-encoding: Việc tính toán vector rất tốn CPU. Bạn nên tính sẵn Embedding khi insert dữ liệu vào database và lưu chúng lại. Đừng đợi đến khi người dùng search mới bắt đầu encode.
Làm sạch dữ liệu (Preprocessing): Hãy loại bỏ HTML tag, chuyển về chữ thường và xử lý khoảng trắng trước khi đưa vào model. Dữ liệu càng sạch, vector đại diện càng chính xác.
Cân bằng hiệu năng: Các dòng model MiniLM thường nhanh hơn 5-10 lần so với các model BERT-base nhưng vẫn giữ được độ chính xác khoảng 90-95%. Đây là lựa chọn tốt nhất cho các dự án thực tế.

Hy vọng những chia sẻ này giúp bạn tự tin tích hợp thêm “bộ não” cho tính năng tìm kiếm trong dự án. Semantic Search giờ đây không còn là lãnh địa riêng của các ông lớn công nghệ, mà là công cụ nằm ngay trong tầm tay của mọi developer Python.