ھۆججەتتىكى ئوخشاش قۇرلارنى ئۆچۈرۈش(1)

سىزدە بىر تېكىست ھۆججىتى بار دەيلى، بىراق ئوخشاش قۇر بار بولۇپ بۇ ئوخشاش قۇرلاردىن پەقەت بىرنى ساقلاپ قىلىش شۇنداقلا ئەسلىدىكى ھۆججەتتىكى قۇرلارنىڭ ئورنىنى ئۆزگەرتمەسلىككە ئېھتىياج چۈشكەندە قانداق قىلىش كېرەك؟
ئەگەر قۇرنىڭ تەرتىپىدە ئۆزگۇرۇش بولسىمۇ بولدۇ دېسىڭىز بۇنى sort ۋە uniq بۇيرىقى بىلەن ئەمەلگە ئاشۇرغىلى بولىدۇ.
مەسىلەن تۆۋندىكى بۇيرۇق بىلەن:
cat text_hojjiti | sort | uniq


ئەگەر قۇر تەرتىپى ئۆزگەرسىمۇ بولىدۇ دېسىڭىز شۇنداقلا ھۈججەتنىڭ چوڭ كىچىكلىكى بەك چوڭ بولمىسا يۇقىرىقى بۇيرۇق ياكى ئوخشاپ كېتىدىغان ئۇسۇلدا بىر تەرەپ قىلغىلى بولىدۇ . ھۆججەتنىڭ چوڭ كىچىكلىكى بىر قانچە گىگابىت بولسا يۇقىرىقى ئۇسۇلدا كوپ ۋاقىت كېتىدۇ شۇنداقلا كومپىيوترىڭىزنىڭ سەپلېمىسىگە بولغان تەلەپمۇ يۇقىرى بولىدۇ .
ھۆججەتتىكى ھەرقايسى قۇرنىڭ تەرتىپىنى ساقلىغان ھالدا ئوخشاش قۇرلارنى چىقىرىۋېتىش ئۇچۇن قانداق قىلىش كېرەك؟
بۇنىڭ ئۈچۈن awk نى ئىشلىتىپ ئەمەلگە ئاشۇرغىلى بولىدۇ.يەنى تۆۋەندىكىدەك:
awk '!visited[$0]++' text_hojjiti > yegi_text_hojjiti

بۇ ئۇسۇل بىلەن بىر قەدەر چوڭ ھۆججەتتىكى قايتىلانغان قۇرلارنىمۇ تېزلىكتە بىر تەرپ قىلىغىلى بولىدۇ. مەن بۇ ئارقىلىق 50 گېگابىتلىق ھۆججەتنى 20 مىنۇت ئىچىدە بىر تەرەپ قىلدىم. ئەلۋەتتە بۇ سىزىنىڭ مۇلازىمىتىرىڭىزنىڭ سەپلىمىسى، شۇنداقىلا سىزىدىكى ھۆججەتنىڭ قۇرۇلمىسى بىلەن مۇناسىۋەتلىك.
يۇقارقىنى ئەمەلگە ئاشۇرۇشنىڭ يەنە بىر خىل ئۇسىلى بولسا cat, sort ۋە cut لارنى ئىشىلىتىش ئۇسۇلى ، بۇ ئۇسۇل توغرىسىدا كىيىكى يازمىدا توختىلىمىز.

"ھۆججەتتىكى ئوخشاش قۇرلارنى ئۆچۈرۈش(1) " غا ئىنكاس يوق


    قالدۇردىغان سۆز بارمۇ؟

    بىرقىسم html بەلگىلىرىنى ئىشلىتىشكە بولىدۇ