Frequency Dictionaries

T ừ đ i ể n t ầ n s ố xu ấ t hi ệ n các t ừ trong ti ế ng Vi ệ t

The series Frequency Dictionaries aims at producing dictionaries with comparable frequency data for a large number of different languages. For many of the languages featured in this collection, this series is the first comprehensive compilation using a large-scale empirical base.
The dictionaries are available in print and electronic version. Each dictionary provides the most frequent 1000 word forms ordered by frequency and the most frequent 10000 word forms in alphabetical order. They provide an introductory description of the data and the methodological approach. In addition, language specific statistical information on letters, word structure and structural changes depending on word frequency is provided. The enclosed CD-ROM contains a more comprehensive version of the dictionary as an e-book, with data on relative frequency of up to 1000000 word forms given in alphabetical order.
This series of dictionaries provides the opportunity to explore comparative linguistic topics as well as monolingual issues such as studies on word formation and frequency-based examinations of lexical areas for dictionaries or language teaching.

Bộ sách Frequency Dictionaries được xuất bản với mục đích tạo ra các bộ từ điển dựa trên dữ liệu về tần số xuất hiện của các từ, được thống kê trên nhiều tập hợp dữ liệu với các ngôn ngữ khác nhau. Đối với rất nhiều ngôn ngữ, bộ sách này là tập hợp toàn diện lần đầu được xuất bản sử dụng một số lượng dữ liệu lớn và thực tế.
Bộ từ điển này được xuất bản dưới dạng giấy lẫn dạng điện tử. Mỗi từ điển bao gồm 1,000 từ xuất hiện thường xuyên nhất sắp xếp theo tứ tự tần suất xuất hiện, và 10,000 từ xuất hiện thường xuyên nhất sắp xếp theo bảng chữ cái. Bộ từ điển đồng thời mô tả dữ liệu dùng để phân tích từ và phương pháp phân tích. Bên cạnh đó, các thông tin về từng ngôn ngữ khác nhau được mô tả bao gồm mẫu tự, cấu trúc từ và các thay đổi cấu trúc.
Đĩa CD-ROM đi kèm bao gồm phiên bản điện tử của từ điển, có thể được sử dụng như một e-book. Đĩa bao gồm dữ liệu về tần số xuất hiện tương đối của khoảng 1,000,000 từ. Đối với những ngôn ngữ có ít dữ liệu hơn, danh sách các từ có thể ngắn hơn vì lý do giới hạn của tập dữ liệu. Trong phiên bản tiếng Việt, danh sách từ bao gồm 10,000 từ. Danh sách các từ (với các lớp tần suất) cũng được cung cấp dưới dạng văn bản text trong đĩa CD-ROM và được sắp xếp dựa trên bảng chữ cái và tần suất xuất hiện. Tập văn bản text này có thể được sử dụng với nhiều mục đích khác nhau cho rất nhiều loại ứng dụng khác nhau.
Các từ được in trong từ điển này đã được kiểm tra cẩn thận bởi biên tập viên để tìm ra các từ lỗi. Ngược lại, danh sách đầy đủ trong đĩa CD-ROM được xuất bản tự động với các tiêu chuẩn được định nghĩa sẵn.
Trong quá trình biên soạn, nguồn dữ liệu sử dụng được lấy từ Leipzig Corpora Collection. Dữ liệu dùng để phân tích bao gồm dữ liệu lấy từ báo điện tử, các bài trong Wikipedia và các văn bản được lấy ngẫu nhiên trên Internet. Dữ liệu này có thể được tải về online ở http://corpora.uni-leipzig.de/.
Bộ sách từ điển này có thể giúp phần đóng góp cho các nghiên cứu về chữ và ngôn ngữ, so sánh giữa các ngôn ngữ, hoặc nghiên cứu về một ngôn ngữ bất kì và bộ từ điển này có thể đóng góp cho việc dạy và học ngôn ngữ. Kết quả thống kê nêu trong cuốn sách này có thể phục vụ cho nhiều ngành nghiên cứu khác nhau.
Tiêu đề của bộ từ điển này luôn bao gồm tên của ngôn ngữ trong tiếng Anh, trong tiếng gốc và ba chữ cái viết tắt đầu tiên của ngôn ngữ dựa trên tiêu chuẩn ISO 639-3.