Tóm tắt đa văn bản

Tóm tắt đa văn bản (hay còn gọi ít phổ biến hơn là tóm tắt đa tài liệu, tiếng Anh: multi-document summarization) là một thủ tục tự động nhằm mục đích trích xuất thông tin (information extraction) từ nhiều văn bản viết về cùng một chủ đề. Báo cáo kết quả tóm tắt cho phép các người dùng cá nhân, chẳng hạn như những người dùng thông tin chuyên nghiệp, nhanh chóng làm quen với thông tin chứa trong một nhóm lớn tài liệu. Theo cách đó, các hệ thống tóm tắt đa văn bản đang bổ sung cho trình đọc tin trực tuyến để thực hiện bước tiếp theo trong việc đối phó với vấn đề quá tải thông tin.

Hai cách tiếp cận nổi bật là tóm tắt trích xuất (extractive summarization) và tóm tắt trừu tượng (abstractive summarization). Các hệ thống tóm tắt trích xuất hướng đến trích xuất các đoạn trích, câu hoặc đoạn văn nổi bật từ tài liệu, trong khi hệ thống tóm tắt trừu tượng nhằm diễn giải nội dung tài liệu theo cách súc tích.[1]

Xem thêm

Tham khảo

  1. ^ Mani, K., Verma, I., Meisheri, H., & Dey, L. (2018, December). Multi-document summarization using distributed bag-of-words model. In 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI) (pp. 672-675). IEEE.

Liên kết ngoài

  • Document Understanding Conferences
  • Columbia NLP Projects
  • NewsInEssence: Web-based News Summarization
  • ReviewChomp Lưu trữ 2020-07-29 tại Wayback Machine
  • x
  • t
  • s
Thuật ngữ chung
Khai thác văn bản
Tóm tắt tự động
Dịch tự động
Nhận dạng tự động
và thu thập dữ liệu
Mô hình chủ đề
Xem xét với
sự trợ giúp máy tính
Giao diện người dùng
ngôn ngữ tự nhiên