WikiSort.ru - Лингвистика

ПОИСК ПО САЙТУ | о проекте

Корпус Хамшахри (перс. پیکره همشهری) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри»[en], одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group[1], базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада[2], на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.

Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.

Версия 1.0

Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.

Корпус доступен в нескольких форматах для загрузки[2]:

  • текст с тегами: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ.

Версия 2.0

Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:

  • Другие новости: 323 616 текстовых историй в 3206 файлах XML (файл на каждый день);
  • Увеличение периода публикаций: с 22 июня 1996 года по 13 мая 2007 года;
  • Больший объём: 1,42 ГБ без сжатия;
  • Стандартная кодировка: Unicode XML;
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений;
  • Категоризированные новости: новостные сюжеты были классифицированы полуавтоматически (для задач классификации текста и категоризации).

Корпус доступен для загрузки в формате XML.

Примечания

  1. DBRG News Database Research Group
  2. 1 2 Hamshahri Database Research Group

Ссылки

Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".

Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.

Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .




Текст в блоке "Читать" взят с сайта "Википедия" и доступен по лицензии Creative Commons Attribution-ShareAlike; в отдельных случаях могут действовать дополнительные условия.

Другой контент может иметь иную лицензию. Перед использованием материалов сайта WikiSort.ru внимательно изучите правила лицензирования конкретных элементов наполнения сайта.

2019-2024
WikiSort.ru - проект по пересортировке и дополнению контента Википедии