Mevcut Yöntemlerin Sentezi ile Web Sayfalarının Belli Yapılardaki Bölgelerinin Tespiti

Author:

Number of pages:
163-175
Language:
English
Year-Number:
2022-Volume 17 Issue 1

Web içerik madenciliği, içeriğin genellikle html etiket verilerinden ve daha da önemlisi, html etiket verili listeler ve tablolar ve muhtemelen diğer iç içe yapılandırılmış verilerden oluştuğu bir web madenciliği dalıdır. Genellikle, yararlı bilgi parçaları, bazı kalıplar halinde bu yapılandırılmış veri bölgelerinde bulunur. Ancak bu kalıbı bozan gürültüler nedeniyle, faydalı veri kayıtlarının tespiti ve çıkarılması zorlu bir görev haline gelir. Veri kaydının yerinin tespiti ve çıkarılmasında, yapılandırılmış veri bölgesindeki düzenli olmayan html etiketinin yanı sıra yapılandırılmış veri bölgelerinin dışındaki herhangi bir veri, gürültü olarak kabul edilir. Önerilen çalışma, ilgili veriyi çıkarma sistemlerinin doğruluk performansını daha da iyileştirmek için mevcut yöntemlerin başarılı bileşenlerini küçük değişikliklerle birleştiren bir sentezidir. Mevcut yöntemlerin çoğu, veri kaydı bölgelerini tespit için benzer düğümleri kümelemek veya tespitten önce bir web sayfasını temsil etmek için DOM ağacını bir Etiket Yolu Sırasına (TPS) dönüştürmek için Belge Nesne Modeli (DOM) ağacını kullanır. Önerilen çalışma ilk olarak bir web sayfasını kodlayan ve veri kayıt modellerini çıkarmak için Sonek Ağacı Tabanlı Çıkarım Yöntemini (STEM) kullanan benzersiz diziyi oluşturur. Daha sonra, ilişkili veri kayıtlarının yapı olarak benzer olduğu varsayımına dayalı olarak alt dizileri kümeler. Diziler arasındaki benzerlik En Uzun Ortak Alt Dizi (LCS) algoritması kullanılarak hesaplanır. Son adımda, gürültülü alt dizilerinin DOM ağacının düğümlerine karşılık gelenleri ağaçtan budanır. Önerilen çalışmayı test etmek için bazı herkese açık web sayfaları ve Testbed veri seti kullanılmıştır. Elde edilen sonuçlar, TPS filtre yönteminin sonuçları ile karşılaştırılmıştır. Deneyler, önerilen çalışma kullanılarak kaldırılan ortalama gürültü sayısının, önceki raporlarla eşleşebilen DOM ağacının %43'ü olduğunu ve TPS filtresinden daha yüksek olduğunu göstermektedir.

Keywords


Web content mining is a branch of web mining where the content usually consists of html tag-data and more importantly structured data such as lists and tables with html tag-data and possibly other nested structured data. Usually, useful pieces of information reside in these structured data regions following some pattern. But due to noises that break this pattern, detection and extraction of useful data records turn out to be a challenging task. For data record detection and extraction applications, any non-regular html tag in the structured data region as well as any data outside of the structed data regions of interest are considered to be noise. The proposed work is a synthesis of existing methods combining their successful components with minor modifications to further improve the accuracy performance of the extraction systems. Most of the existing methods utilize the Document Object Model (DOM) tree to cluster similar nodes to detect the data record regions or convert DOM tree into a Tag Path Sequence (TPS) to represent a web page before detection. The proposed work first generates the unique sequence that encodes a webpage and utilizes the Suffix Tree-based Extraction Method (STEM) to extract data record patterns. It then clusters subsequences based on the assumption that data records that are related are similar in structure. The similarity between sequences are computed using the longest common subsequence (LCS) algorithm. In the last step, the noisy subsequences are removed by pruning the corresponding nodes from the DOM tree. Some publicly available web pages and Testbed dataset are used for testing the proposed work. The obtained results are compared with those of the TPS filter method. Experiments show that the average number of noise removed using the proposed work is 43% of the DOM tree, which can match previous reports and it is higher than that of TPS filter.

Keywords

Article Statistics

Number of reads 374
Number of downloads 786

Share

Journal of Turkish Studies
E-Mail Subscription

By subscribing to E-Newsletter, you can get the latest news to your e-mail.