Giới thiệu vài nét về bài toán Information retrieval
Về bài toán Information retrieval, đầu vào sẽ là một query (có thể là ảnh, hoặc là văn bản), đầu ra là danh sách các documents có liên quan đến query đó, thường được sắp xếp từ liên quan nhất đến ít liên quan nhất. Thông thường để giải quyết bài toán này, các mô hình ranking được sử dụng để ranking độ liên quan của các documents để trả về kết quả. Mỗi mô hình ranking thường sẽ có những ưu nhược điểm riêng, nên việc kết hợp chúng lại hứa hẹn sẽ làm tăng độ chính xác của kết quả.
Reciprocal Rank Fusion
li RRF hoạt động dựa trên việc thu thập kết quả của nhiều phương pháp ranking, gán cho mỗi document trong kết quả một reciprocal rank score, và sau đó kết hợp những score đó tạo thành thứ tự rank mới. Nguyên tắc là document hay xuất hiện với vị trí đầu trong nhiều chiến lược retrieval sẽ nhận được thứ hạng cao trong kết quả tổng hợp.
Cụ thể, có thể chia RRF thành các bước nhỏ như sau:
- Thu thập kết quả ranking từ nhiều nhiều mô hình ranking. Ví dụ: đối với text, muốn tìm kiếm document có tiêu đề là "Một ngày đẹp trời", và nội dung tóm tắt là "Ngày đẹp trời gồm có: ngày nhận lương, ngày ăn ngon, ngày ngủ đủ giấc", trong tập hợp các documents có dạng tương tự.
- tiêu đề sẽ được dùng với phương pháp text search, kết quả trả ra (một danh sách các documents được sắp xếp từ liên quan nhất đến ít liên quan) sẽ được thu thập.
- nội dung tóm tắt sẽ được dùng phương pháp vector search, kết quả trả ra (một danh sách các documents được sắp xếp từ liên quan nhất đến ít liên quan) sẽ được thu thập.
Lưu ý từ tác giả: nội dung query có thể khác nhau (như ví dụ trên), hoặc giống nhau, tùy vào mục đích của từng bài toán cụ thể.