Trích xuất câu

Trích xuất câu (hay còn gọi là rút trích câu, tiếng Anh: sentence extraction) là một kỹ thuật được sử dụng cho việc tóm tắt tự động văn bản.[1] Theo cách tiếp cận thô sơ này, người ta áp dụng một thống kê heuristic (dựa trên kinh nghiệm) để nhận dạng các câu quan trọng nhất (các câu có ý nghĩa) trong một văn bản. Trích xuất câu là một phương pháp tiếp cận có chi phí rẻ khi so sánh với các phương pháp tiếp cận đòi hỏi kiến thức sâu hơn, cần các cơ sở kiến thức bổ sung như bản thể học hay ngôn ngữ học. Tóm lại, "trích xuất câu" hoạt động như một bộ lọc, chỉ cho phép các câu quan trọng đi qua.

Xem thêm

Tham khảo

  1. ^ Goldstein, J., Mittal, V. O., Carbonell, J. G., & Kantrowitz, M. (2000). Multi-document summarization by sentence extraction. In NAACL-ANLP 2000 Workshop: Automatic Summarization.
  • x
  • t
  • s
Thuật ngữ chung
Khai thác văn bản
Tóm tắt tự động
Dịch tự động
Nhận dạng tự động
và thu thập dữ liệu
Mô hình chủ đề
Xem xét với
sự trợ giúp máy tính
Giao diện người dùng
ngôn ngữ tự nhiên
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s