һөҗҗәттики охшаш қурларни өчүрүш(1)

сиздә бир текист һөҗҗити бар дәйли, бирақ охшаш қур бар болуп бу охшаш қурлардин пәқәт бирни сақлап қилиш шундақла әслидики һөҗҗәттики қурларниң орнини өзгәртмәсликкә еһтияҗ чүшкәндә қандақ қилиш керәк?
әгәр қурниң тәртипидә өзгуруш болсиму болду десиңиз буни sort вә uniq буйриқи билән әмәлгә ашурғили болиду.
мәсилән төвндики буйруқ билән:
cat text_hojjiti | sort | uniq


әгәр қур тәртипи өзгәрсиму болиду десиңиз шундақла һүҗҗәтниң чоң кичиклики бәк чоң болмиса юқириқи буйруқ яки охшап кетидиған усулда бир тәрәп қилғили болиду . һөҗҗәтниң чоң кичиклики бир қанчә гигабит болса юқириқи усулда коп вақит кетиду шундақла компийотриңизниң сәплемисигә болған тәләпму юқири болиду .
һөҗҗәттики һәрқайси қурниң тәртипини сақлиған һалда охшаш қурларни чиқириветиш учун қандақ қилиш керәк?
буниң үчүн awk ни ишлитип әмәлгә ашурғили болиду.йәни төвәндикидәк:
awk '!visited[$0]++' text_hojjiti > yegi_text_hojjiti

бу усул билән бир қәдәр чоң һөҗҗәттики қайтиланған қурларниму тезликтә бир тәрп қилиғили болиду. мән бу арқилиқ 50 гегабитлиқ һөҗҗәтни 20 минут ичидә бир тәрәп қилдим. әлвәттә бу сизиниң мулазимитириңизниң сәплимиси, шундақила сизидики һөҗҗәтниң қурулмиси билән мунасивәтлик.
юқарқини әмәлгә ашурушниң йәнә бир хил усили болса cat, sort вә cut ларни ишилитиш усули , бу усул тоғрисида кийики язмида тохтилимиз.

"һөҗҗәттики охшаш қурларни өчүрүш(1) " ға инкас йоқ


    қалдурдиған сөз барму?

    бирқисм html бәлгилирини ишлитишкә болиду