Buot nga Mahimong usa ka Data Scientist? Pagkat-on sa Usa Niini nga mga Pinulongan

Pag-una sa data sa siyensya pinaagi sa pagkasayud sa usa niining mga dakog-pinulongan nga mga pinulongan

Ang tanan gusto nga ang ilang panginabuhi gipangita-tungod kay ang panginahanglan gihubad ngadto sa dakong suweldo ug walay kakulang sa trabaho. Niining mga panahona, ang dako nga datos sa datos nga puno sa ingon nga matang sa trabaho, tungod kay ang mga kompaniya sa tanang gidak-on kinahanglan mangolekta ug mag-analisar sa kasayuran aron sa paghimo sa mga desisyon ug mga panagna (ug makuha ang mga resulta).

Mao gayud kana ang ginahimo sa datos sa mga siyentista: pagdiskobre og kasayuran, paghimo og mga koneksyon, paghimo og mga paghulagway sa datos, ug pagtabang sa mga kompaniya sa pagdagan nga maayo.

Ug ang bug-os nga pagsabot sa mga husto nga mga pinulongan sa programming kinahanglanon sa paghubad sa estadistika ug pagtrabaho sa mga database.

Sumala sa KDnuggets, 91% sa datos nga gigamit sa mga siyentipiko ang mosunod nga upat ka pinulongan.

Pinulongan 1: R

Ang R usa ka pinulongan nga istilo sa istadyum nga gibantog taliwala sa data miners. Kini usa ka bukas nga tinubdan, nga gipunting sa pagpatuman sa mga butang nga S, ug dili kaayo lisud nga makat-unan.

Kon gusto nimong mahibal-an kon unsaon pagpalambo sa statistical software, ang R usa ka maayong pinulongan nga mahibal-an. Kini usab nagtugot kanimo sa pagmaniobra ug sa graphikong pagpakita sa datos.

Isip kabahin sa ilang programa sa Science Science Specialization, ang Coursera nagtanyag sa usa ka klase sa R ​​nga dili lamang nagtudlo kanimo kon unsaon sa pag-programa sa pinulongan apan usab nagpadayon kon unsaon sa paggamit niini sa konteksto sa data science / analysis.

Pinulongan 2: SAS

Sama sa R, ang SAS gigamit una alang sa statistical analysis. Kini usa ka gamhanan nga himan sa pag-usab sa mga datos gikan sa mga database ug mga spreadsheet ngadto sa mabasa nga mga format (sama sa mga dokumento sa HTML ug PDF) ingon man usab sa mas daghang mga lamesa ug mga graph.

Naugmad sa mga tigdukiduki nga akademiko, kini nahimong usa sa labing popular nga mga himan sa analytics sa tibuok kalibutan alang sa mga kompanya ug mga organisasyon sa tanang matang. Kini labaw pa sa usa ka dako nga korporasyon nga matang sa software ug dili kasagaran gigamit sa gagmay nga mga kompaniya o mga indibidwal nga nagtrabaho sa ilang kaugalingon.

Ang mga kapanguhaan alang sa pagkat-on sa SAS gilista sa niini nga dokumento .

Ang pinulongan dili bukas nga tinubdan, mao nga lagmit dili ka makatudlo sa imong kaugalingon nga libre.

Pinulongan 3: Python

Bisan tuod nga ang R ug SAS kasagarang gihunahuna nga "ang duha ka dako" sa kalibotan sa analytics, si Python bag-o lang nahimong usa ka kontender. Usa sa mga nag-unang hinungdan niini mao ang nagkadaiyang mga librarya (sama sa Pandas, NumPy, SciPi, ug uban pa) ug statistical functions.

Tungod kay ang Python (sama sa R) usa ka open-source nga pinulongan, ang mga pag-update gidugang niini sa madali. (Uban sa gipalit nga mga programa sama sa SAS, kinahanglan nga imong hulaton ang sunod nga pagpagawas sa bersyon.)

Ang laing butang nga gikonsiderar mao nga ang Python tingali ang labing sayon ​​nga makat-unan, tungod sa pagkayano niini ug sa daghang mga kurso ug mga kahinguhaan niini. Kini nga website usa ka maayong dapit sa pagsugod.

Makita usab nimo ang usa ka bug-os nga listahan sa mga materyal sa pagkat-on sa Python dinhi.

Pinulongan 4: SQL

Sa pagkakaron nagatan-aw kami sa mga pinulongan nga anaa sa sama nga pamilya ug (labaw o dili kaayo) adunay managsama nga mga gimbuhaton. Ang SQL, nga nagpasabut sa "Nakahan-ay nga Panultihon sa Query," diin kini nga mga kausaban. Kini nga pinulongan walay labut sa estadistika; kini nagpunting sa pagdumala sa kasayuran diha sa mga relational nga mga database.

Kini mao ang labing kaylap nga gigamit nga database nga pinulongan ug bukas nga tinubdan, busa ang mga nagtinguha nga mga datos sa mga siyentipiko siguradong dili kinahanglan nga laktawan kini.

Ang pagkat-on sa SQL kinahanglan nga mosangkap kanimo sa paghimo sa SQL nga mga databases, pagdumala sa datos sa sulod niini, ug paggamit sa may kalabutan nga mga gimbuhaton. Naghatag ang Udemy og kurso sa pagbansay nga naglangkob sa tanan nga mga sukaranan ug mahimong makompleto nga dali ug walay kahadlok.

Konklusyon

Sa labing menos, kinahanglan tingali ka makakat-on sa SQL ug mopili bisan usa sa mga istatistika nga pinulongan. Apan kon ikaw adunay panahon (ug sa kaso sa SAS, kuwarta) ug gusto nga matuman gayud sa imong pagka-us aka merkado, walay giingon nga dili nimo makat-unan ang tanan nga upat!

Ayaw pagdalidali, pag-ehersisyo, pag-uswag sa imong kahibalo-ug pagpahimulos sa seguridad sa trabaho.