Semalt შეიმუშავებს URLitor– ს - ძალიან მაგარი ვებგვერდებისა და მონაცემთა ექსტრაქციის ინსტრუმენტი

URLitor არის ახალი, მაგრამ ეფექტური ვებ – სკრეპინგისა და მონაცემთა მოპოვების ინსტრუმენტი. URLitor– ის გამოსაყენებლად, თქვენ უბრალოდ უნდა დაამატოთ ყველა URL მისამართის სია, რომლის შინაარსზეც გსურთ ჩაწეროთ ინტერნეტით მოცემულ შაბლონში. შემდეგ თქვენ უნდა მიუთითოთ HTML ელემენტი, რომლის ამოღებაც გსურთ ვებ – გვერდებიდან და დააჭირეთ ღილაკს გაგზავნის ღილაკზე. ეს ისეთივე მარტივია, როგორც ეს. ამ ხელსაწყოს საშუალებით, თქვენ აღარ გჭირდებათ ასლის გაკეთება ან ჩასმა ბრაუზერში.
xPath არის ენა, რომელიც გამოიყენება XML ფაილებში ინფორმაციის მოსაძებნად. ის იყენებს გარკვეულ გამონათქვამებს XML ფაილებში კვანძის ნაკრების ან კვანძების შესარჩევად. გამონათქვამები, რომლებსაც XPath ესმის, საკმაოდ ჰგავს იმ სიტყვებს, რომლებიც გამოიყენება ჩვეულებრივი კომპიუტერული ფაილების ან დოკუმენტების გამოყენებით.

მიუხედავად იმისა, რომ XPath გამოიყენება პროგრამირების რამდენიმე ენაზე, ეს ინსტრუმენტი შეიქმნა მომხმარებლებისთვის, რომლებსაც არ აქვთ პროგრამირების ცოდნა. ასე რომ, თქვენ არ გჭირდებათ პროგრამისტი, რომ გამოიყენოთ. ამ ხელსაწყოს საშუალებით, შეგიძლიათ ამონაწერი მონაცემები რამდენიმე HTML და XML გვერდიდან.
გამოყენების სიმარტივისთვის, XPath- ის ხშირად გამოყენებული რამდენიმე ფრაზა წინასწარ არის განსაზღვრული ჩამოსაშლელ მენიუში, რის შედეგადაც მომხმარებლებს მხოლოდ რომელიმე მათგანის არჩევა დასჭირდებათ მათი მიზნიდან გამომდინარე. ამასთან, XPath– ის მაღალკვალიფიციურ მომხმარებლებს აქვთ უფლება, გამოიყენონ თავიანთი გამონათქვამები, როდესაც ისურვებენ.
ინსტრუმენტი შეიქმნა 100 URL- ის მოცულობის ერთჯერადი ჯართის სესიაზე და მაქსიმუმ 10 გამოთქმა ერთდროულად. სხვა სიტყვებით რომ ვთქვათ, მას შეუძლია მონაცემების გადაწერა მაქსიმუმ 100 URLდან ერთდროულად.
რამდენიმე მნიშვნელოვანი XPath საბაჟო გამონათქვამი, რომელთა შეცვლა ან დამატება შესაძლებელია, ქვემოთ მოცემულია:
1. // div [2] - ეს გამოთქმა ირჩევს მეორე div იერარქიულად;
2. // ბმული [@ rel = 'canonical'] / @ href - ეს ფრაზა ირჩევს ტეგის ადგილმდებარეობას (ref), რომელიც გამოიყენება rel ატრიბუტის დასადგენად ტოლფასია კანონიკური;
3. / html / head / meta [@ name = 'აღწერა'] / @ შინაარსი - ეს ფრაზა გამოიყენება შინაარსის არჩევისთვის;
4. // * [@ class = 'class-name'] - შეგიძლიათ გამოიყენოთ ეს გამონათქვამი ყველა კლასის ელემენტის შესარჩევად, როგორც CSS კლასისთვის;
5. // თ 2 | // სათაური - ამ გამონათქვამის გამოყენება შესაძლებელია როგორც პირველი H2, ისე გვერდის სათაურის შესარჩევად;
6. // * [name () = 'h1' ან name () = 'სათაური'] - ეს გამონათქვამი ზუსტად ისე მუშაობს, როგორც ზემოთ მოყვანილი. თუმცა, ზემოთ წარმოდგენილი გამოთქმა უკეთესია, რადგან ის უფრო მოკლეა;
7. // * [შეიცავს (@class, 'thumb')] - ეს ფრაზა ირჩევს ყველა ელემენტს, რომელსაც აქვს CSS კლასი და ასევე შეიცავს "ცერა თითი" მოპოვებისთვის;
8. // მშობელი :: * [text () = 'Welcome'] - ეს გამოთქმა ირჩევს მშობელს ყველა ელემენტს, რომელსაც აქვს ტექსტი 'Welcome';
ეს ინსტრუმენტი არის ბეტა ვერსია და კიდევ შეიძლება გაუმკლავდეს ზოგიერთ შეცდომას. ამასთან, ის მაინც შესანიშნავი ინსტრუმენტია პროგრამისტების ცოდნის მცირე ან არარსებობის გამო, რადგან ხშირად გამოყენებული გამონათქვამები წინასწარ განსაზღვრულია მენიუში, როგორც ეს უკვე აღვნიშნეთ.