Metin :: Kayıt :: Dedecer

Ayrı eksiksiz, kısmi ve yakın yinelenen metin kayıtları
Şimdi İndirin

Metin :: Kayıt :: Dedecer Sıralama ve Özet

Reklamcılık

  • Rating:
  • Lisans:
  • Perl Artistic License
  • Fiyat:
  • FREE
  • Yayıncı adı:
  • Kim Ryan
  • yayıncı web sitesi:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Metin :: Kayıt :: Dedecer Etiketler


Metin :: Kayıt :: Dedecer Açıklama

Ayrı eksiksiz, kısmi ve yakın yinelenen metin kayıtları Metin :: Kayıt :: Dedüper, ayrı tam, kısmi ve yakın yinelenen metin kayıtlarına sahip bir perl modülüdir .Synopsis Metin :: Kayıt :: Dedecer kullanın; $ DedUper = Yeni Metin :: Kayıt :: Dedecer; # Çoğaltılmış $ deduper-> dedupe_file ("orig.txt") olan tüm satırları bulun ve kaldırın; # DedUPE virgülle ayrılmış kayıtlar, birkaç alan tarafından tanımlanan kopyalar $ Deduper-> Field_Separator (','); $ Deduper-> Add_key (field_number => 1, ignore_case => 1); $ Deduper-> Add_key (field_number => 2, ignore_whitespace => 1); # Benzersiz Kayıtlar Dosya adları_uniqs.csv, Dupes adlı kullanıcının adlarını_dupes.csv $ deduper-> dedupe_file ('names.csv'); # 'Yakın' Dupes'i Bulunamış Adı Alias'larımın% Nick_Names = (Bob => 'Robert', Rob => 'Robert'); $ Near_Deden = Yeni Metin :: Kayıt :: Dedecer (); $ Near_Deden-> Add_key (field_number => 2, takma ad => \% nick_names) veya ölmek; $ near_deduper-> dedupe_file ('names.txt'); # Bir metin raporu oluşturun, names_report.txt Tüm kopyaları tanımlamak için $ _Deduper-> Report_File ('names.txtt', all_records => 1); # Bir dizi kayıt dizisinde 'yakın' dupleri bulmak, referansları # benzersiz ve yinelenen bir diziye ($ UNIQS, $ dupes) = $ air_deduper-> dedupe_array (@some_records); bu modül bir metin dosyası almanızı sağlar Kayıtlar ve benzersiz ve bir yinelenen kayıt dosyasının bir dosyasına bölün. Kecords bir alan kümesi olarak tanımlanır. Alanlar boşluklar, virgüller, sekmeler veya başka herhangi bir sınırlayıcı ile ayrılabilir. Kayıtlar yeni bir satırla ayrılır. Herhangi bir seçenek belirtilmemektedir, yalnızca bir kayıttaki tüm alanlar (tüm çizginin tamamı) çoğaltıldığında bir kopya oluşturulacaktır. kayıt başına bir defadan fazla olmaz. Ayrıca, vaka duyarlılığını, önde gelen ve izleyen beyaz boşluğu görmezden gelinen seçenekler de vardır. Başlıca 'yakın' ya da 'bulanık' kopyaları tanımlanabilir. Bu, Bob => Robert gibi takma adlar oluşturarak yapılır. Bu modül, birden fazla veri girişi ile oluşturulmuş kopyaları bulmak veya benzer kayıtların birleştirilmesi için yararlıdır. Gereksinimler: · Perl


Metin :: Kayıt :: Dedecer İlgili Yazılım