人民日报语料库处理16句

1、对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr 。
2、地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号括起来,并标以短语NS 。
3、约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开 。
4、地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分 。
5、明显带排行的亲属称谓要切分开,分不清楚的则不切开 。
6、地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位 。
7、商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n 。
【人民日报语料库处理16句】 8、外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr 。
9、地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开 。然后将地名同该普通名词标成短语NS 。
10、历史朝代的名称虽然有专有名词的性质,仍标注为t 。
11、书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词 。由于这些名字往往较长,名字本身按常规处理 。
12、国名不论长短,作为一个切分单位 。
13、专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应分开 。
14、包含专有名称(或简称)的交通线,标以nz;短语型的,标为NZ 。
15、姓名后的职务、职称或称呼要分开 。
16、以序号命名的名称一般不认为是专有名称 。