Raksti

8.2.5: Histogrammu izmantošana, lai atbildētu uz statistikas jautājumiem


Nodarbība

Uzzīmēsim histogrammas un izmantosim tās, lai atbildētu uz jautājumiem.

Vingrinājums ( PageIndex {1} ): kurš no tiem nepieder: jautājumi

Šeit ir četri jautājumi par Aļaskas iedzīvotājiem. Kurš jautājums nepieder? Esiet gatavs paskaidrot savu argumentāciju.

  1. Kopumā kādā vecumā Aļaskas iedzīvotāji aiziet pensijā?
  2. Kādā vecumā Aļaskas iedzīvotāji var balsot?
  3. Kāda ir vecuma atšķirība starp jaunākajiem un vecākajiem Aļaskas iedzīvotājiem, kuri strādā pilnu slodzi?
  4. Kura vecuma grupa ir lielākā iedzīvotāju daļa: 18 gadus veci vai jaunāki, 19–25 gadi, 25–34 gadi, 35–44 gadi, 45–54 gadi, 55–64 gadi vai 65 gadus veci vai vecāki?

Vingrinājums ( PageIndex {2} ): slieku mērīšana

Slieku audzētājs uzstādīja vairākus konteinerus ar noteiktu sugu sliekām, lai viņš varētu uzzināt par to garumu. Slieku garumi sniedz informāciju par to vecumu. Zemnieks vienā no konteineriem izmēra 25 slieku garumus. Katrs garums tika mērīts milimetros.

  1. Izmantojot lineālu, uzzīmējiet līnijas segmentu katram garumam:
    • 20 milimetri
    • 40 milimetri
    • 60 milimetri
    • 80 milimetri
    • 100 milimetri
  2. Šeit ir 25 slieku garumi milimetros.

(6 quad 11 quad 18 quad 19 quad 20 quad 23 quad 23 quad 25 quad 25 quad 26 quad 27 quad 27 quad 28 quad 29 quad 32 quad 33 quad 41 quad 42 quad 48 quad 52 quad 54 quad 59 quad 60 quad 77 quad 93 )

Aizpildiet tabulu par 25 slieku garumiem.

garumsbiežums
No (0 ) milimetriem līdz mazāk nekā (20 ) milimetriem
(20 ) milimetri līdz mazāk nekā (40 ) milimetri
No (40 ) milimetriem līdz mazāk nekā (60 ) milimetriem
No (60 ) milimetriem līdz mazāk nekā (80 ) milimetriem
(80 ) milimetri līdz mazāk nekā (100 ) milimetri
Tabula ( PageIndex {1} )
  1. Izmantojiet režģi un tabulas informāciju, lai uzzīmētu tārpu garuma datu histogrammu. Noteikti iezīmējiet histogrammas asis.
  1. Pamatojoties uz histogrammu, kāds ir šo 25 slieku tipiskais garums? Paskaidrojiet, kā jūs zināt.
  2. Uzrakstiet 1-2 teikumus, lai aprakstītu datu izplatību. Vai lielākajai daļai tārpu garums ir tuvu jūsu aprēķinātajam tipiskajam garumam, vai arī to garums ir ļoti atšķirīgs?

Vai esat gatavs vēl?

Šeit ir vēl viena slieku mērījumu datu histogramma. Šajā histogrammā mērījumi notiek dažādās grupās.

  1. Pamatojoties uz šo histogrammu, kāds ir jūsu aprēķins par tipisko 25 slieku garumu?
  2. Salīdziniet šo histogrammu ar zīmēto. Kā abās histogrammās apkopotie datu sadalījumi ir vienādi? Kā viņi atšķiras?
  3. Salīdziniet aprēķinus par tipisku slieku garumu abām histogrammām. Vai no abām histogrammām esat izdarījis atšķirīgus secinājumus par tipisku slieku garumu?

Vingrinājums ( PageIndex {3} ): augsti un garāki spēlētāji

Profesionālie basketbolisti mēdz būt garāki par profesionāliem beisbolistiem.

Šeit ir divas histogrammas, kas parāda 50 profesionālo beisbola spēlētāju vīriešu un 50 vīriešu profesionālo basketbolistu augstuma sadalījumu.

  1. Izlemiet, kura histogramma parāda beisbolistu augumus un kura - basketbolistu augumus. Esiet gatavs paskaidrot savu argumentāciju.
  1. Uzrakstiet 2–3 teikumus, kas raksturo basketbolistu auguma sadalījumu. Komentējiet datu centru un izplatību.
  2. Uzrakstiet 2–3 teikumus, kas apraksta beisbolistu auguma sadalījumu. Komentējiet datu centru un izplatību.

Kopsavilkums

Šeit ir 30 suņu svars kilogramos.

(10 ​​ quad 11 quad 12 quad 12 quad 13 quad 15 quad 16 quad 16 quad 17 quad 18 quad 18 quad 19 quad 20 quad 20 quad 20 quad 21 quad 22 quad 22 quad 22 quad 23 quad 24 quad 24 quad 26 quad 26 quad 28 quad 30 quad 32 quad 32 quad 34 quad 34 )

Pirms uzzīmējam histogrammu, izskatīsim pāris jautājumus.

  • Kādas ir mazākās un lielākās vērtības mūsu datu kopā? Tas dod mums priekšstatu par attālumu skaitļu līnijā, kuru veiks mūsu histogramma. Šajā gadījumā minimums ir 10 un maksimālais ir 34, tāpēc mūsu skaitļu rindai ir jāpagarina vismaz no 10 līdz 35.

(Atcerieties konvenciju, kuru mēs izmantojam, lai histogrammā atzīmētu ciparu līniju: mēs iekļaujam joslas kreiso robežu, bet izslēdzam labo robežu. Ja 34 ir pēdējās joslas labā robeža, tā šajā joslā netiks iekļauta , tāpēc ciparu rindai jābūt nedaudz lielākai par maksimālo vērtību.)

  • Kāds grupas lielums vai atkritumu tvertnes lielums šeit šķiet saprātīgs? Mēs varētu sakārtot svarus 2 kilogramu (10, 12, 14, ...), 5 kilogramu, (10, 15, 20, 25, ...), 10 kilogramu (10, 20, 30, ...), vai jebkura cita izmēra. Jo mazākas tvertnes, jo vairāk mums būs stieņu, un otrādi.

Suņu svariem izmantosim 5 kilogramu smagas tvertnes. Mūsu tvertņu robežas būs: 10, 15, 20, 25, 30, 35. Mēs apstājamies pie 35, jo tas ir lielāks par maksimālo.

Tālāk mēs atrodam vērtību biežumu katrā grupā. Ir lietderīgi sakārtot vērtības tabulā.

svari kilogramosbiežums
(10 ​​) līdz mazāk nekā (15 )(5)
No (15 ) līdz mazāk nekā (20 )(7)
No (20 ) līdz mazāk nekā (25 )(10)
No (25 ) līdz mazāk nekā (30 )(3)
No (30 ) līdz mazāk nekā (35 )(5)
Tabula ( PageIndex {2} )

Tagad mēs varam uzzīmēt histogrammu.

Histogramma ļauj mums uzzināt vairāk par suņa svara sadalījumu un aprakstīt tā centru un izplatību.

Glosārija ieraksti

Definīcija: centrs

Skaitlisko datu kopas centrs ir vērtība sadalījuma vidū. Tas apzīmē tipisku datu kopas vērtību.

Piemēram, šī kaķu svara sadalījuma centrs ir no 4,5 līdz 5 kilogramiem.

Definīcija: izplatīšana

Sadalījums norāda, cik reizes katra vērtība notiek datu kopā. Piemēram, datu kopā zilā, zilā, zaļā, zilā, oranžā krāsā sadalījums ir 3 zili, 1 zaļš un 1 oranžs.

Šeit ir punktu diagramma, kas parāda datu kopas 6, 10, 7, 35, 7, 36, 32, 10, 7, 35 sadalījumu.

Definīcija: biežums

Datu vērtības biežums ir tas, cik reizes tas notiek datu kopā.

Piemēram, parkā bija 20 suņi. Tabulā parādīts katras krāsas biežums.

krāsabiežums
balts(4)
brūns(7)
melns(3)
daudzkrāsains(6)
Tabula ( PageIndex {3} )

Definīcija: histogramma

Histogramma ir veids, kā attēlot datus ciparu rindā. Datu vērtības ir sagrupētas pēc diapazoniem. Joslas augstums parāda, cik datu vērtību ir šajā grupā.

Šī histogramma rāda, ka bija 10 cilvēki, kuri nopelnīja 2 vai 3 biļetes. Mēs nevaram pateikt, cik no viņiem nopelnīja 2 biļetes vai cik nopelnīja 3. Katrā joslā ir kreisās puses vērtība, bet ne labās puses vērtība. (Bija 5 cilvēki, kuri nopelnīja 0 vai 1 biļetes, un 13 cilvēki, kuri nopelnīja 6 vai 7 biļetes.)

Definīcija: izplatīšanās

Skaitlisko datu kopas izplatība norāda, cik tālu ir vērtības.

Piemēram, punktu diagrammas parāda, ka Dienvidāfrikas studentu ceļojuma laiks ir vairāk sadalīts nekā Jaunzēlandē.

Prakse

Vingrinājums ( PageIndex {4} )

Šīs divas histogrammas parāda to īsziņu skaitu, kuras vienā nedēļā nosūtīja divas 100 studentu grupas. Pirmajā histogrammā apkopoti sestās klases skolēnu dati. Otrajā histogrammā apkopoti septītās klases skolēnu dati.

  1. Vai abām datu kopām ir aptuveni viens un tas pats centrs? Ja tā, paskaidrojiet, kur atrodas centrs. Ja nē, kuram ir lielāks centrs?
  2. Kuras datu kopas izplatība ir lielāka? Paskaidrojiet savu pamatojumu.
  3. Kura skolēnu grupa - sestās vai septītās klases - nosūtīja vairāk īsziņu?

Vingrinājums ( PageIndex {5} )

Četrdesmit sestās klases skolēni skrēja 1 jūdzi. Šeit ir histogramma, kurā apkopots viņu laiks minūtēs. Izkliedes centrs ir aptuveni 10 minūtes.

Uz tukšajām asīm uzzīmējiet otru histogrammu, kurai ir:

  • laiku sadalījums citai 40 sesto klašu skolēnu grupai.
  • centrs 10 minūtēs.
  • mazāka mainība nekā pirmajā histogrammā parādītais sadalījums.

Vingrinājums ( PageIndex {6} )

Jada ir (d ) dimes. Viņai ir vairāk nekā 30 centi, bet mazāk nekā dolārs.

  1. Uzrakstiet divas nevienlīdzības, kas norāda, cik daudz dimesu ir Džada.
  2. Vai (d ) var būt 10?
  3. Cik daudz iespējamo risinājumu padara patiesu abas nevienlīdzības? Ja iespējams, aprakstiet vai uzskaitiet risinājumus.

(No 7.2.2. Vienības)

Vingrinājums ( PageIndex {7} )

Kārtojiet šos skaitļus no lielākā līdz mazākajam: (- 4, frac {1} {4}, 0, 4, -3 frac {1} {2}, frac {7} {4}, - frac { 5} {4} )

(No 7.1.4. Vienības)


Izmantojiet frekvences histogrammu, lai atbildētu uz katru jautājumu.

Radās PHP kļūda

Ziņojums: nenoteikts indekss: userid

Fails: /home/eoc11apgnrmy/public_html/application/views/question.php
Līnija: 192
Funkcija: _error_handler

Fails: /home/eoc11apgnrmy/public_html/application/controllers/Questions.php
Līnija: 416
Funkcija: skats

Fails: /home/eoc11apgnrmy/public_html/index.php
Līnija: 315
Funkcija: pieprasīt vienreiz

statsguru Punditsdkoslkdosdkoskdo

Kā izveidot histogrammas programmā Power BI, lai atbildētu uz biznesa jautājumiem

Histogramma ir izplatīts statistikas rīks, lai aprakstītu vērtību sadalījumu datu kopā. Viņi vienā acumirklī var parādīt visizplatītākās vērtības, atšķirības un vērtību izplatību. Histogrammas var būt noderīgas ne tikai statistikā, bet arī atbildēs uz biznesa jautājumiem. Tomēr tas nav uzreiz skaidrs, kā tos iestatīt Power BI, tāpēc mēs veiksim dažus paņēmienus, kā tos izveidot, lai risinātu biznesa scenāriju. Mēs sāksim ar vienkāršu ieviešanu, pēc tam izveidosim sarežģītāku, ar papildu elastību un ieskatu mūsu scenārijā.

Kas atkal ir histogramma? Vai tas nav tikai kolonnu diagramma?

Histogrammas, gluži vienkārši, ir kolonnu diagrammas veids. Daudziem cilvēkiem tie var šķist viens un tas pats, taču, lai gan visas histogrammas ir kolonnu diagrammas, ne visas kolonnu diagrammas ir histogrammas (līdzīgi tam, kā visi cilvēki ir zīdītāji, bet ne visi zīdītāji ir cilvēki). Lai gan jūs, iespējams, esat pieradis pie kolonnu diagrammām, kurās tiek parādīts finanšu rādītājs, piemēram, peļņa, histogrammas ir kolonnu diagrammas, kas sniedz informāciju par vērtību biežumu, bieži vien izmantojot COUNT mērījumu programmā Power BI. Histogrammām ir vairākas īpašas pazīmes, kas ne visās kolonnu diagrammās ir & # 8230

  • X ass satur nepārtrauktas vērtības (t.i., skaitļus), nevis kategoriskās vērtības (t.i., grupu nosaukumus), un y ass satur biežuma / skaitīšanas datus.
  • X ass vērtības var būt atsevišķas vērtības (0, 1, 2, 3 gadi utt.) Vai kopīgas vērtības (0–9, 10–19, 20–29 utt.). Histogrammas kolonnā attēlotajam vienumam šajā tvertnē varētu būt jebkura vērtība. Mēs koncentrēsimies tikai uz histogrammām, izmantojot atsevišķas vesela skaitļa vērtības, jo ir vairāki raksti, kurus citi jau ir uzrakstījuši par apvienošanas izmantošanu segmentēšanai.
  • Histogrammas ietver tvertnes, kuru skaits ir nulle. Situācijas konteksts var likt saprātīgi izlaist tukšas tvertnes izplatīšanas augšējā vai apakšējā galā, ja tās nav starp divām neuzkrītošām tvertnēm, piem. aprakstot uzņēmuma darbiniekus, jums nav jāiekļauj vecums no 0 līdz 9.

Histogrammas izmantošana, lai atbildētu uz biznesa jautājumiem

Histogrammas nav noderīgas tikai statistikā - tās var efektīvi izmantot arī biznesa scenārijos, lai sniegtu noderīgu ieskatu. Šajā piemērā mēs atbildēsim uz jautājumiem par hipotētisku mazumtirdzniecības uzņēmumu, kas atrodas Melburnā, Austrālijā. Mums ir sniegti dati par to, kā katrs no uzņēmuma un # 8217 veikaliem ir veicies katrā 2019. – 2020. Finanšu gada mēnesī. Šajā datu kopā ir Pārdošanas un Pārdošanas mērķi, un pamatā esošā tabula izskatās šādi

Tā kā tabulā ir ietverts pārdošanas momentuzņēmums līdz katra mēneša beigām, ļaujiet & # 8217 saukt šo tabulu Faktu pārdošanas momentuzņēmums. Šeit ņemiet vērā, ka sleja Mēnesis ir datuma veida lauks, bet es esmu mainījis formatējumu, lai padarītu to vieglāk lasāmu.

Pamatojoties uz datiem Faktu pārdošanas momentuzņēmums, mums ir lūgts atbildēt uz šo jautājumu:

Cik mēnešus katrs veikals pārdeva zem pārdošanas mērķiem?

Ja mēs vēlamies atbildēt uz šo jautājumu, mēs saskaramies ar problēmu. Parasti programmā Power BI mēs veidojam vizuālo materiālu, velkot un nometot laukus pārskata lapā, lai izveidotu mūsu asi un vērtības. Bet, ja mēs vēlamies, lai mēnešu skaits tiktu parādīts mūsu kolonnu diagrammas asī, kādu datu kopas lauku mēs izmantotu šīs ass veidošanai? Tas nav uzreiz skaidrs, jo mūsu datu kopā nav lauka ar tikai veselu skaitļu vērtībām mūsu mēneša skaitīšanai. Lai tiktu galā ar šo problēmu, mēs paši izveidosim tabulu ar šo mēneša vērtībām. Izmantojot šo jauno tabulu, mēs izveidosim histogrammu, kas parāda veikalu skaitu pret to mēnešu skaitu, kurus tie veica zem mērķa.

Mēs risināsim šo problēmu divos dažādos veidos. Pirmā pieeja būs tā sauktais statiskais risinājums, kura pamatā ir aprēķināta tabula, kurā tiek apkopota mūsu esošā momentuzņēmuma tabula. Otrais būs dinamisks risinājums, kura vietā tiks izmantots parametrs What-If un pielāgots mērs. Visbeidzot, mēs paplašināsim savu dinamisko risinājumu ar pielāgotu rīka padomu, lai pastāstītu, kuri veikali ir attēloti katrā mūsu histogrammas kolonnā. Kā degustētājs gaidāmajam, šeit izskatīsies mūsu galīgais risinājums ...

Statiskais risinājums, izmantojot aprēķinātās tabulas

Lai atbildētu uz šo jautājumu, mums ir jāaprēķina katra veikala pārdošanas apjoms mērķim un mēneša pārdošanas apjoms. Lai to izdarītu, mēs varam definēt vienkāršu DAX mērījumu šādi un definēt to procentos.

Pārdošana mērķim =
SADALĪT (
SUM (& # 8216Fact Sales Snapshot '[Sales]),
SUM (& # 8216Fact Sales Snapshot '[Target])
) +
// & # 8216 + 0 un # 8217 nodrošina, ka tukšās vērtības atgriež 0. Tas ir kodolīgāk nekā funkcija COALESCE

Tagad, izmantojot šo jauno mēru, mēs DAX izveidosim jaunu aprēķinātu tabulu, kas atgriež unikālu veikalu sarakstu, un katram veikalam tiek skaitīts, cik mēnešus pasākums Pārdošana mērķim ir mazāks par 100%.

Veikala veiktspēja =
KOPSAVILKT (
& # 8216Faktisks pārdošanas momentuzņēmums & # 8217,
// Grupējiet mūsu momentuzņēmumu tabulu & # 8230
& # 8216Faktisks pārdošanas momentuzņēmums [veikals],
// Pēc veikala & # 8230
& # 8220Mēneši zem mērķa & # 8221,
// Un atgrieziet mēnešu skaitu zem mērķa & # 8230
APRĒĶINĀT (
COUNT (& # 8216Faktisks pārdošanas momentuzņēmums '[mēnesis]),
// Saskaitot atlikušo mēnešu skaitu & # 8230
FILTRS (
VALUES (& # 8216Fact Sales Snapshot '[mēnesis]),
// Pēc mēnešu filtrēšanas uz leju & ​​# 8230
[Pārdošana mērķim] & lt 1
// Lai iekļautu tikai mēnešus zem mērķa
)
) +
)

Mūsu jaunās Veikala veiktspējas tabulas iznākums izskatās šādi & # 8230

Un mēs varam vilkt šos divus laukus kolonnu diagrammas vizuālajā attēlā, lai iegūtu kaut ko līdzīgu šim.

Un šeit mums ir mūsu histogramma! Tas noteikti atbild uz mūsu biznesa jautājumu par to, cik mēnešus katrs veikals tika pārdots zem mērķa. Bet tam ir daži trūkumi, kas nozīmē, ka mums, iespējams, nav labākā pieeja, ko izmantot citās līdzīgās situācijās ...

  • Mēs esam pievienojuši jaunu tabulu, kas aizņems vairāk vietas mūsu modelī un palielinās faila lielumu, it īpaši, ja mums būtu daudz vairāk veikalu vai veicam šo analīzi par līdzīgiem produktiem, kuriem, iespējams, būtu daudz dažādu unikālu vērtību.
  • Mēs nevaram sagriezt šo tabulu, pamatojoties uz citiem atribūtiem, piemēram, mēnesi vai veikala reģionu.
  • Mums varētu būt apmierināti ar to, ka netiek rādīti 11. un 12. mēnesis, taču mēs varētu vēlēties pārliecināt savu pārskatu auditoriju, ka nav veikalu, kas ilgāk par 10 mēnešiem darbotos atbilstoši mērķim.

Ņemot vērā visus šos trūkumus, mēs atkal risināsim šo problēmu, taču šoreiz izmantojam mērogojamāku pieeju. Mūsu jaunā pieeja ne tikai pievērsīsies šiem jautājumiem, bet arī ļaus vēlāk sadaļās iekļaut citas funkcijas, kas būs nozīmīga pievienotā vērtība, raksturojot mūsu biznesa situāciju.

Dinamisks risinājums, izmantojot parametrus un mērus, kas būtu, ja būtu

Šis jaunais risinājums balstīsies uz dinamisku mērījumu izveidi, uz kuru mēs joprojām varēsim sadalīt savu datu modeli. Šī ir stingrāka pieeja, kā mūsu pirmais mēģinājums, jo mūsu apkopotās vērtības tiek aprēķinātas pēc nepieciešamības, pamatojoties uz filtra kontekstu, nevis tiek saglabātas modelī kā fiksētas vērtības. Tomēr šim jaunajam risinājumam joprojām ir jārisina problēma, kuru mēs iepriekš identificējām ap lauka nepieciešamību mūsu histogrammas asij.

Šoreiz mēs izveidosim vēl vienu aprēķinātu tabulu, kaut arī daudz vienkāršāku. Mēs definēsim parametru What If, ko sauc par histogrammas asi, un ļausim tam iegūt vērtības no 0 līdz 12.

Ņemiet vērā, ka esam atcēluši atlasi “Pievienot sagriezēju šai lapai”, jo šī vērtība netiks sagriezta. Mums arī nebūs nepieciešams automātiski ģenerēts histogrammas ass vērtības rādītājs, jo tā vietā tiks izveidots jauns pielāgots mērs. Mēs vienkārši izmantojam parametru, lai definētu aprēķinātu tabulu ar vērtībām, kurām vajadzētu parādīties uz mūsu histogrammu x ass, kuras mēs varētu būt vienlīdz labi definējuši manuāli kā DAX tabulu.

Tagad, kad mums ir histogrammas ass, mēs varam definēt mēru, ko izmantosim, lai ģenerētu histogrammas vērtības. Šajā pasākumā mēs izveidosim veikala veiktspējas tabulu kā virtuālu tabulas mainīgo, lai tā tiktu novērtēta pasākuma ietvaros, nevis tiktu saglabāta modelī. Pēc tam tabulu filtrējam līdz veikaliem, kuru pārdošanas rezultāti atbilst pašreiz izvēlētajai histogrammas ass vērtībai. Visbeidzot, pasākums atgriež rindu skaitu šai filtrētajai tabulai.

Veikalu skaits =
VAR histogrammas sleja =
SELECTEDVALUE (& # 8216Histogrammas ass [Histogrammas ass])

// Saglabāt pašreiz atlasīto histogrammas ass vērtību
VAR StorePerformance =
// Virtuālā tabula definēja to pašu, ko mūsu aprēķinātā tabula
KOPSAVILKT (
& # 8216Faktisks pārdošanas momentuzņēmums & # 8217,
& # 8216Faktisks pārdošanas momentuzņēmums [veikals],
& # 8220Mēneši zem mērķa & # 8221,
APRĒĶINĀT (
COUNT (& # 8216Faktisks pārdošanas momentuzņēmums '[mēnesis]),
FILTER (VALUES (& # 8216Fact Sales Snapshot '[mēnesis]),

[Pārdošana mērķim] & lt 1)
) +
)
ATGRIEZTIES
COUNTROWS (
// Saskaitiet rindas & # 8230
FILTRS (
// Pēc filtrēšanas uz leju & ​​# 8230
StorePerformance,
// virtuālā tabula StorePerformance & # 8230
[Mēneši zem mērķa] = Histogrammas sleja
// Tikai veikaliem, kas pieder pašreizējai histogrammas kolonnai
)
) +

Tagad mēs varam izmantot šo mēru, lai ģenerētu to pašu histogrammu kā iepriekš, bet tā kā to dinamiski aprēķina pēc vērtībām Faktu pārdošanas momentuzņēmums, tagad histogrammā varam izmantot sagriezējus. Piem., mēs varētu vēlēties aprobežoties ar analīzi tikai ar veikaliem noteiktā reģionā vai tikai ar dažiem gada mēnešiem.

Ņemiet vērā, ka, lietojot šķēlītes, tas neietekmē mūsu sākotnējo statisko risinājumu.

Mūsu histogrammas formatēšana

Tālāk mēs formatēsim histogrammu parastā veidā, kur starp kolonnām nav atstarpju - tas darbojas kā vizuāls signāls, lai īstenotu ideju, ka kolonnas attēlo nepārtrauktas vērtības.

Lai to izdarītu, mums (ironiski) ir jāmaina mūsu x ass no nepārtraukta tipa uz kategorisku. Lai gan mūsu dati atspoguļo nepārtrauktu skaitļu sēriju, nezināmu iemeslu dēļ kolonnu diagrammas vizuālie materiāli ļauj pielāgot platumu starp kolonnām tikai tad, ja dati uz x ass ir atzīmēti kā kategoriski. Šo iestatījumu mēs varam mainīt rūtī Format.

Bet diemžēl, veicot šīs izmaiņas, mūsu sleju secība mainās! Asis tagad tiek sakārtots dilstošā secībā, pamatojoties uz mērījuma vērtību, taču mums to ir viegli izlabot.

Visbeidzot, mēs varam pielāgot platumu starp kolonnām, izmantojot opciju Iekšējais polsterējums rūtī Formāts.

Pievienojot rīka padomu katrā kolonnā pārstāvēto veikalu sarakstam

Tagad, kad mums ir sadalīts ikmēneša veikalu sniegums, nākamais, ko mēs, iespējams, vēlamies uzzināt, ir tas, kuri veikali darbojas labi un kuri nav. Efektīvs veids, kā parādīt šo informāciju, būtu ar rīka padomu, kas mums norāda, kuri veikali ir attēloti katrā mūsu histogrammas kolonnā.

Mēs to varam izdarīt, izveidojot pielāgotu rīka padomu. Lai to izdarītu, mēs savā pārskatā varam izveidot jaunu lapu, pēc tam formātā rūtī definēt lapu kā Rīka padoma lapu un samazināt lapas izmēru līdz pietiekami mazam, lai to izmantotu kā rīka padomu.

Savā rīka padomu lapā mēs varam izveidot vienkāršu tabulas vizuālo saturu, izmantojot lauku Store Faktu pārdošanas momentuzņēmums. Pēc noklusējuma tas parādīs visus mūsu veikalus, taču mēs vēlamies, lai tajā tiktu parādīti tikai pašreiz atlasītās histogrammas kolonnas veikali. Lai to paveiktu, mēs izveidosim vēl vienu mēru, kas tiks izmantots kā vizuālā līmeņa filtrs mūsu vizuālajā. Katrai mūsu veikalu tabulas rindai tas noteiks, cik mēnešus veikals bija sliktāk darbojies. Tad tas tiks salīdzināts ar histogrammas kolonnu, kas pašlaik ir izvēlēta, izveidojot rīka padomu, un veikalu iekļaus tikai tad, ja veikala veiktspēja atbilst histogrammas kolonnas vērtībai.

Rīka padomu filtrs =
VAR histogrammas sleja =
SELECTEDVALUE (& # 8216Histogrammas ass [Histogrammas ass])
VAR MonthsBelowTarget =
// Definēts kā iepriekš
APRĒĶINĀT (
COUNT (& # 8216Faktisks pārdošanas momentuzņēmums '[mēnesis]),
FILTRS (VĒRTĪBAS (& # 8216Fact Sales Snapshot '[mēnesis]), [Sales to Target] & lt 1)
)
ATGRIEZTIES
IF (MonthsBelowTarget = Histogrammas sleja, 1,)

Lai iespējotu šo filtru loģiku, mums vienkārši jāvelk pasākums mūsu rīka padomu tabulas vizuālā līmeņa filtros un jāiekļauj tikai vērtības, kurām mērvienība atgriež 1.

Pēc tam, kad tas viss ir iestatīts, mēs varam pāriet atpakaļ uz mūsu galveno pārskata lapu un formatēt histogrammas vizuālo informāciju, lai norādītu uz mūsu rīka padoma lapu kā pārskata lapas padomu.

Un līdz ar to mēs tagad varam redzēt savu dinamisko histogrammu ar rīka padomu darbībā!

Citi scenāriji, kuros izmantot histogrammas

Šie histogrammu veidošanas paņēmieni analīzei var būt ļoti spēcīgi, ja tos efektīvi izmanto. Izmantojot šo ieskatu, pārskata lietotājs, iespējams, varēs identificēt veikalus ar zemu pārdošanas rādītāju un izmantoja to, lai izpētītu (un, cerams, atrisinātu) galvenos faktorus, kas veicina viņu slikto sniegumu. Jūs pat varētu paplašināt šo scenāriju, analizējot atsevišķu produktu pārdošanu un identificējot veikalus, kuros šis produkts ir sliktāk darbojies (nevis ņemt vērā visu veikalā esošo produktu pārdošanas rezultātus, kā mēs to darījām). Klienti, kuri iepērkas šajos veikalos, var piedāvāt vērtīgu ieskatu, lai palīdzētu jūsu uzņēmumam uzlabot produktu piedāvājumu.

Kopsavilkums

Šajā rakstā mēs Power BI izveidojām histogrammu, kas parādīja veikala veiktspējas sadalījumu, pamatojoties uz to, cik mēnešus katra veikala pārdošanas apjomi bija zem mērķa. Vispirms mēs izveidojām histogrammu, izmantojot apkopošanas tabulu DAX, un pēc tam paplašinājām risinājumu, lai izmantotu mēru un parametru What If. Pēc tam mēs formatējām histogrammu, lai noņemtu atstarpi starp kolonnām, un pievienojām pielāgotu rīka padomu, lai parādītu, kuri veikali ir attēloti katrā histogrammas kolonnā.

Visbeidzot, ņemiet vērā, ka mūsu apspriestās pieejas balstās uz to, ka jūs savā modelī varat definēt aprēķinātu tabulu. Tomēr, ja nejauši strādājat ar pārskatu, kas saistīts ar analīzes pakalpojumu modeli, iespējams, jums nebūs tāda paša veida elastība, lai izveidotu papildu tabulas. Nākamajā emuāra ziņā es jūs iepazīstināšu ar ieviešanu, kuru varat izmantot, lai izveidotu histogrammas, kad faktiski nevarat izveidot jaunu tabulu savā modelī, tāpēc sekojiet jaunumiem!


Histogrammas

Histogramma: grafisks datu attēlojums, izmantojot dažāda augstuma joslas.

Tas ir līdzīgs joslu diagrammai, bet histogramma grupē skaitļus diapazoni .

Katras joslas augstums parāda, cik daudz ietilpst katrā diapazonā.

Un jūs izlemjat, kādus diapazonus izmantot!

Piemērs: apelsīnu koku augstums

Katra augļu dārza koka augstumu mēra centimetros (cm)

Augstumi svārstās no 100 cm līdz 340 cm

Jūs nolemjat rezultātus sadalīt 50 cm grupās:

  • The 100 līdz nedaudz zem 150 cm diapazons,
  • The 150 līdz nedaudz zem 200 cm diapazons,
  • utt.

Tātad & quot250-300 & quot diapazonam tiek pievienots koks, kura garums ir 260 cm.

Var redzēt (piemēram), ka tādi ir 30 koki no 150 cm līdz nedaudz zem 200 cm garš

(PS: jūs varat izveidot tādas diagrammas kā Izveidojiet savu histogrammu)

Ievērojiet, ka horizontālā ass ir nepārtraukta kā skaitļu līnija:

Piemērs: Cik daudz tas kucēns aug?

Katru mēnesi jūs mēra, cik lielu svaru jūsu kucēns ir ieguvis, un iegūstat šos rezultātus:

0,5, 0,5, 0,3 un mīnus 0,2, 1,6, 0, 0,1, 0,1, 0,6, 0,4

Tās svārstās no & mīnus 0,2 (kucēns tajā mēnesī zaudēja svaru) līdz 1,6

Sakārtojiet no zemākā līdz augstākajam svara pieaugumam:

& mīnus 0,2, 0, 0,1, 0,1, 0,3, 0,4, 0,5, 0,5, 0,6, 1,6

Jūs nolemjat rezultātus sadalīt 0,5 grupās:

(Nav vērtību no 1 līdz nedaudz zemāk par 1,5, taču mēs tomēr rādām vietu.)

Katras joslas diapazonu sauc arī par Klases intervāls

Piemērā virs katras klases intervāls ir 0.5

Histogrammas ir lielisks veids, kā parādīt nepārtrauktu datu rezultātus, piemēram:

Bet, kad dati ir kategorijām (piemēram, Valsts vai Mīļākā filma), mums vajadzētu izmantot joslu diagrammu.


Eksāmenu stila jautājumi par statistiku

Bens izmēra katras no 10 viena veida jūras gliemežvāku garumu un platumu. Rezultāti ir parādīti zemāk.

(a) Konstruējiet izkliedes grafiku ar šiem datiem.

Jūras čaumalas izmēri
Garums (cm) Platums (cm)
7.3 2.7
9.7 3.2
7.5 2.6
6.1 2.9
9.0 2.9
8.7 3.0
7.5 2.5
10.3 3.5
9.5 3.3

Punkts, kas atspoguļo vienas čaulas rezultātus, ir nepārsniegts.

(b) Paskaidrojiet, kā šīs čaulas rezultāti atšķiras no pārējo čaumalu rezultātiem.

Tiek veikta aptauja, uzdodot cilvēkiem jautājumus, kad viņi iznāk no kafijas bāra.

Anketas sadaļa ir parādīta zemāk.

Ievietojiet ķeksīti & # 9745 lodziņā jūsu izvēlētās atbildes priekšā.

1. Cik bieži jūs apmeklējat kafijas bāru?

& # 9744 katru dienu & # 9744 vienu vai divas reizes nedēļā & # 9744 nekad.

a) Paskaidrojiet, kāpēc šī ir tendencioza aptauja.

b) Izteikt divus kritiskus jautājumus vai atbildes iespējas.

Tabulā parādīta informācija par 85 stalagmitu augstumiem.

Augstums ( (h ) cm) Biežums
(10 ​​ lt h le 15 )9
(15 lt h le 20 )13
(20 lt h le 25 )18
(25 lt h le 30 )22
(30 lt h le 35 )15
(35 lt h le 40 )8

a) Atrodiet klases intervālu, kurā ir mediāna.

b) Zemāk esošajā režģī uzzīmējiet tabulas informācijai frekvences daudzstūri.

155 cilvēkiem tika jautāts, cik daudz naudas viņi maksās par konkrētu trīs ēdienu maltīti īpašā restorānā.

Histogramma parāda aptaujas rezultātus.

a) Aizpildiet histogrammā redzamās informācijas biežuma tabulu.

Summa (£ (x )) (0 lt x le 10 )
Biežums 20

b) Izmantojiet savu biežuma tabulu, lai aprēķinātu vidējo summu, kādu šie cilvēki maksātu par maltīti.

Džimijs pasūta t-kreklus kopienas korim, kurā ir 240 dalībnieki.

Viņš jautā 36 dalībnieku paraugam, kādai krāsai jābūt krekliņiem. Katrs dalībnieks izvēlas vienu krāsu.

Tabulā parādīta informācija par viņa rezultātiem.

Krāsa Dalībnieku skaits
Zils 6
sarkans 3
Zaļš 7
Dzeltens 5
Violets 2
Melns 6
Balta 7

(a) Noskaidrojiet, cik no 240 dalībniekiem, jūsuprāt, vēlēsies melnus t-kreklus.

(b) Norādiet visus savus pieņēmumus un paskaidrojiet, kā tas var ietekmēt jūsu atbildi.

Izkliedētā diagramma sniedz informāciju par katra no 13 studentiem statistikas eksāmenā un matemātikas eksāmenā nopelnītajām atzīmēm.

Matemātikas eksāmena lodziņš 13 studentiem ir uzzīmēts uz zemāk esošā režģa.

a) uzzīmējiet statistikas eksāmena lodziņu.

b) Salīdziniet abos eksāmenos iegūto atzīmju sadalījumu.

Tabulā ir norādītas atzīmes, ko nopelnījuši 200 studenti, kuri kārtoja matemātikas eksāmenu.

Atzīmēt (n) (0 lt n le 10 ) (10 ​​ lt n le 20 ) (20 lt n le 30 ) (30 lt n le 40 ) (40 lt n le 50 ) (50 lt n le 60 ) (60 lt n le 70 ) (70 lt n le 80 )
Biežums 3 7 33 42 54 35 20 6

a) Izmantojiet iepriekš tabulas datus, lai aizpildītu šo kumulatīvo biežuma tabulu

Atzīmēt (n) (n le 10 ) (n le 20 ) (n le 30 ) (n le 40 ) (n le 50 ) (n le 60 ) (n le 70 ) (n le 80 )
Kumulatīvais biežums 200

b) Uz grafiskā papīra uzzīmē kumulatīvo frekvences līkni.

Labākie 5% studentu saņems A pakāpi. Nākamie 15% studentu saņems B pakāpi un nākamie 30% saņems C pakāpi.

(c) Izmantojiet savu diagrammu, lai novērtētu zemāko atzīmi, par kuru tiks piešķirta B pakāpe.

Tabulā parādīts laiks, kas mēnešos ilgs, lai pārdotu mājas Happyland dzīvojamā masīvā.

Laiks (m mēneši) Biežums
0 & lt m & le 2 10
2 & lt m & le 5 21
5 & ​​lt m & le 10 25
10 & lt m & le 15 20
15 & lt m & le 20 25

(a) Uzzīmējiet tabulā esošās informācijas histogrammu.

b) atrodiet vidējā lieluma aprēķinu.

Nākamajā grupētajā biežuma tabulā redzams laika ilgums, (t ) minūtēs, kad apmeklētāji vēroja astoņkājus, kas peldēja ap tvertni pie akvārija.

Laiks ( (t ))Apmeklētāji
(0 lt t le 5 )23
(5 lt t le 10 )13
(10 ​​ lt t le 15 )9
(15 lt t le 20 )6
(20 lt t le 25 )2
(25 lt t le 30 )1

a) Pierakstiet kopējo apmeklētāju skaitu, kuri tika iekļauti aptaujā.

(b) Pierakstiet (20 lt t le 25 ) grupas vidējā intervāla vērtību.

c) Atrodiet aptuveno vidējo laiku, kādu apmeklētāji pavadīja, vērojot astoņkājus.

Iepriekš minētā informācija ir pārrakstīta kā kumulatīvā biežuma tabula.

Laiks ( (t )) (t le 5 ) (t le 10 ) (t le 15 ) (t le 20 ) (t le 25 ) (t le 30 )
Kumulatīvais biežums2336 (a )5153 (b )

(d) Pierakstiet (a ) un (b ) vērtības.

Šī informācija ir parādīta nākamajā kumulatīvās frekvences diagrammā.

(e) Izmantojiet diagrammu, lai novērtētu maksimālo laiku, kas vajadzīgs astoņkāju vērošanai pirmajiem 32 apmeklētājiem (sakārtots skatīšanās laika palielināšanas secībā).

(f) Izmantojiet diagrammu, lai aprēķinātu apmeklētāju skaitu, kuri astoņkāju vērošanā pavadīja mazāk nekā 13 minūtes.

g) Izmantojiet diagrammu, lai aprēķinātu apmeklētāju skaitu, kuriem astoņkāju vērošana aizņem vairāk nekā 17 minūtes.

Zemāk redzamajās diagrammās parādīti gada grupas skolēnu rezultāti, atbildot uz divdesmit prāta aritmētiskiem jautājumiem.

Kādu informāciju no diagrammām var izmantot, lai atbalstītu vai atspēkotu katru no šiem apgalvojumiem?

a) Meitenes prot aritmētiski labāk nekā zēni.

b) Zēnu laika diapazons ir lielāks nekā meiteņu laika diapazons.

Skolas vadītājs vēlētos izmantot šos datus, lai sniegtu paziņojumus par visiem skolas skolēniem.

c) komentē, vai no šī gada grupas rezultātiem var izdarīt secinājumus par visiem skolas iedzīvotājiem.

Šajā tabulā parādīts, cik reižu izlases grupas cilvēki apmeklēja kino sešu mēnešu laikā.

Trūkst vienas no frekvencēm.

Kino apmeklējumi Biežums Viduspunkts
0-4 20 2
5-9 24 7
10-14 12
15-19 7 17

Viduspunktus izmanto, lai izstrādātu vidējā apmeklējumu skaita aprēķinu.

Aprēķināts, ka vidējais ir 7,25.

Izstrādājiet trūkstošo frekvenci.

Šajā tabulā parādīts dienu skaits, ko ģimenes pavada konkrētā piejūras viesnīcā pagājušā gada augustā.

DienasBiežumsKumulatīvais biežums
233
51114
71529
10 (x )39
14544

Laiki, kas dažu sekunžu laikā aizņemti studentu grupā, lai pabeigtu tiešsaistes vingrinājumu, ir uzskaitīti šādi.

$31, 34, 41, 33, 29, 31, 39, 35, 30, 40.$

b) Aprēķiniet starpkvartilu diapazonu.

(c) Atrodiet varbūtību, ka studentam, kurš nejauši izvēlēts no grupas, vajadzēja vismaz 35 sekundes, lai pabeigtu vingrinājumu.

Personīgais treneris apkopoja datus no nejauši izvēlētas dienu izlases. No tā viņš secināja, ka dienā izdzerto ūdens glāžu skaits vidēji bija 4,35.

Brilles1234567
Biežums2469 (x )94

a) Atrodiet dienu skaitu, ko apzīmē (x )

b) pierakstiet standartnovirzi.

TV kompānija aptaujāja 88 savus darbiniekus, lai uzzinātu, cik daudz laika viņi pavada, dodoties uz darbu noteiktā dienā. Aptaujas rezultāti ir parādīti šajā kumulatīvajā biežuma diagrammā.

a) Atrodiet vidējo minūšu skaitu, kas pavadīts, ceļojot uz darbu.

b) Atrodiet starpkvartilu diapazonu.

c) atrodiet darbinieku skaitu, kuru ceļojuma laiks ir vidējais 20 minūšu laikā.

d) Tikai 10% darbinieku pavadīja mazāk nekā k minūtes, ceļojot uz darbu. Atrodiet k vērtību.

Aptaujas rezultātus var parādīt arī šajā lodziņa un ūsas diagrammā.

e) pierakstiet a vērtību.

g) Ceļojuma laiks, kas ir mazāks par p minūtēm, tiek uzskatīts par neparedzētu. Atrodiet p vērtību.

Šis kumulatīvais frekvences grafiks parāda riteņbraucēju ātrumu kmh -1, kas brauc pa noteiktu punktu sacīkšu trasē.

a) Novērtējiet minimālo iespējamo ātrumu vienam no šiem riteņbraucējiem.

b) Atrodiet velosipēdistu vidējo ātrumu.

c) pierakstiet 65. procentili.

d) Aprēķiniet starpkvartilu diapazonu.

(e) Atrodiet to velosipēdistu skaitu, kuri brauca ātrāk par 22 kmh -1

Tabulā parādīti šo velosipēdistu ātrumi.

Velosipēdistu (-u) ātrumsRiteņbraucēju skaits
(0 lt s le 5 )0
(5 lt s le 10 ) (a )
(10 ​​ lt s le 15 )8
(15 lt s le 20 )20
(20 lt s le 25 )16
(25 lt s le 30 )5
(30 lt s le 35 ) (b )

(f) Atrodiet (a ) un (b ) vērtību

g) pierakstiet modālo klasi.

(h) Pierakstiet modālā klases vidējā intervāla vērtību.

(i) Izmantojiet grafiskā displeja kalkulatoru, lai aprēķinātu šo velosipēdistu vidējā ātruma novērtējumu.

(j) Izmantojiet grafiskā displeja kalkulatoru, lai aprēķinātu šo velosipēdistu ātruma standarta novirzes novērtējumu.

Datu kopā ir (n ) vienumi. Vienumu summa ir 650, vidējais ir 13 un standartnovirze ir 5.

Ja katra kopas vērtība tiek reizināta ar 7:

(b) Pierakstiet jaunā vidējā vērtību

(c) Atrodiet jaunās dispersijas vērtību.

Ja vēlaties, lai jautājuma labajā pusē būtu vieta risinājuma izrakstīšanai, izmēģiniet šo retināšanas funkciju. Tas sakļaus tekstu ekrāna kreisajā pusē, bet lielas diagrammas paliks nemainītas.

Šajā vietnē parādītie eksāmenu stila jautājumi ir balstīti uz jautājumiem, kas iepriekšējos eksāmenos (vai vērtēšanas darbu paraugos nākamajiem eksāmeniem) bija noteikti lielāko eksāmenu padomēs. The wording, diagrams and figures used in these questions have been changed from the originals so that students can have fresh, relevant problem solving practice even if they have previously worked through the related exam paper.

The solutions to the questions on this website are only available to those who have a Transum Subscription.

To search the entire Transum website use the search box in the grey area below.


Statistics, Histograms, and Probability

In all likelihood you have computed an average, for example, the average of all your test scores in a course. To find your average, you add your scores and divide by the number of tests. The mathematical term for this average is the mean. On the other hand, the median is the value in the of the data if the number of data points is odd. For example, if the test on a particular test in a class of 27 students have a median of 74, then 13 students scored below 74 13 scored above 74, and one student obtained a grade number of data points is even, the median is the mean of the two ‘values close the middle. The mean need not be the,same as the median. For example, for the data 65, 68, 74, 88, 95, the mean is 75, whereas the median Little mean of 68 and 74 or 71.

MATLAB provides the mean(x) median (x) functions to perform _these computations. If x is a vector, the mean (or median) value of the vector’s values is returned. However, if x is a matrix, a row vector is returned containing the mean (or median) value of each column of x. These functions do not require the elements in x to be sorted in ascending or descending order.

In many applications, the mean and the median do not adequately describe a data set. Two data sets can-have the same mean (or the same median) yet be very different. For example, the test scores 60, 65, 68, 74, 88,95 have the same mean , as the scores 71, 72, 73, 77, 78, 79, but the two sets describe very.different test outcomes. The first set of scores vary over large range, whereas in the second set-the scores are tightly grouped about the mean.

The way the data are spread around the mean can be described by a histogram plot. A histogram is a.plot of the frequency of occurrence of data values versus the values themselves. For example, suppose that in a class of 20 students the 20 scores on the first test were

61 61 65 67 69 72 74 74 76 77
83 83 85 88 89 92 93 93 95 98

On this test there are five scores in the 60-69 range, five in the 70-79 range, five in the 80-89 range, and five in the 90-100 range. The histogram for these scores is shown in the top graph in Figure 7.1-1. It is a bar plot of the number of scores that occur within each range, with the bar centered in the middle of the range (for example, the bar for the range 60-69 is centered at 64.5, and the asterisk on the plot’s abscissa shows the bar’s center).

Figure 7.1-1 Histograms of test scores for 20 students.

Suppose that on the second test the following 20 scores were achieved:

66 69 72 74 75 76 77 78 78 79
79 80 81 83 84 85 87 88 90 94

On this test there are two scores in the 60-69 range, nine in the 70-79 range, seven in the 80-89 range, and two in the 90-100 range. The histogram for these scores is shown in the bottom graph in Figure 7.1-1. The mean on both tests is identical and is 79.75. However, the distribution of the scores is very different. On the first test we.say that the scores are evenly, or “uniformly,” distributed between 60 and 100, whereas on the second test the scores are more clustered around the mean.

To plot a histogram, you must group the data into sub ranges, called bins. In this example the four bins are.the ranges 60-69,70-79, 80-89, and 90-100. The choice of the bin width and bin center can drastically change the shape of the histogram. If the number of data values is relatively small, the bin width can not be small because some of the bins will contain no data and the resulting histogram might not usefully illustrate the distribution of the data.

To obtain a histogram, first sort the data if it has not yet been sorted (you can use the sort function here). Then choose the bin ranges and. bin centers and count the number of values in each bin. Use the bar function to plot the number of values in each bin versus the bin centers as a bar chart. The function bar (x I Y> creates a bar chart of y versus x. The MATLAB script file that generates Figure 7.1-1 follows. We have selected the bin centers to be in the middle of the ranges 60-69, 70-79, 80-89, 90-99.

MATLAB provides the hi s t command to generate a histogram. This command has several forms. Its basic form is hi s t (y) ,where y is a vector containing the data. This form aggregates the data into 10 bins evenly spaced between the minimum and maximum values in y. The second form is hist (y, n ) , where . n is a user-specified scalar indicating the number of bins. The third form is hi s t (y r x) ,where x is a user-specified vector ,that determines the location. of the bin centers the bin widths are the distances between the centers.

Figure 7.1-3 Absolute frequency histogram for 100 thread tests.

will not be satisfactory. This case occurs when you want to obtain a relative frequency histogram. In such cases you can use the bar function to generate the histogram. The following script file generates the relative frequency histogram for the 100 thread tests. Note that if you use the bar function, you must aggregate the data first.

The result appears in Figure 7.1-4.

The fourth, fifth, and sixth forms of the hi s t function do not generate a plot, but are used to compute the frequency counts and bin locations. The bar function can then be used to plot the histogram. The syntax of the fourth form is [z , x] = hi s t (y) , where z is “the returned vector containing the frequency count and x is the returned vector containing the bin locations. The fifth and sixth forms are [z, x] = hist (y ,n) and [z , x] = hist (y, x). In the latter

Figure 7.1-4 Relative frequency histogram for 100 thread tests.

case the returned vector x is the same as the user-supplied vector. The following script file shows how the sixth form can be used to generate a relative frequency histogram for the thread example with 100 tests.

The plot generated by this M-file will be identical to that shown in Figure 7.1-4. These commands are summarized in Table 7.1-1.

Table 7.1-1 Histogram functions

The Data Statistics Tool

With the Data Statistics tool you can calculate statistics for data and add plots of the statistics to a graph of the data. The tool is accessed from the Figure window after you plot the data. Click on the Tools menu, then select Data Statistics. The menu appears as shown in Figure 7.1-5. To plot the mean of the dependent variable (y), click the box in the row labeled mean under the column labeled Y, as shown in the figure. You can plot other statistics as well these are shown in the figure. You can save the statistics to the workspace as a structure by clicking on the’Save to Workspace button. This opens a dialog box that prompts you for a name for the structure containing the x data, and a name for the y data structure.

Varbūtība

Probability is expressed as a number between 0 and 1 or as a percentage between o percent and 100 percent. For example, because there are six possible outcomes from rolling a single die, the probability of obtaining a specific number on one roll is 1/6, or. 16.67 percent. Thus if you roll the die a large number of times, you expect to obtain a 2 one-sixth of the time. Figure 7.1-6 shows the theoretical uniform probabilities for rolling a single die, and the relative frequency histogram for the data from 100 die rolls. The number of times a 1,2,3,4,5, or Occurred was 21,14, 18, 16, 19,and 12 respectively. The plots of the theory and the data are very similar, but not identical. In general, if you had rolled the die 1000 times instead of 100 times, the histogram would look even more like the theoretical probability plot.
If you roll two balanced dice, each roll has 36 possible outcomes because each die can produce six numbers. There is only one way to obtain a sum of 2, but there are two ways to obtain a sum of 3, and so on. Thus the probability of rolling a sum of 2 is 1/36, and the probability of rolling a sum of 3 is 1/36 +1/36 = 2/36.

Figure 7.1-5 The Data Statistics, tool.

Figure 7.1-6 Comparison of theory end experiment for 100 rolls of a single die.

Continuing this line of reasoning, you can obtain the theoretical probabilities for the sum of two dice, as shown in the following table.

Probabilities Cor the sum of two dice
Sum 2 3 4 5 6 7 8 9 10 11 12
Probability (x 36) 1 2 3 4 5 6 5 4 3 2 1

An experiment was performed by rolling two dice 100 times and recording the sums. The data follows.

Data Cor two dice
Sum 2 3 4 5 6 7 8 9 10 11 12
Frequency 5 5 8 11 20 10 8 12 7 10 4

Figure 7.1-7 shows the relative frequency histogram and the theoretical probabilities on the same plot, If you had collected more data, the histogram would have been closer to the theoretical probabilities.
The theoretical probabilities can be used to predict the outcome of an experiment. Note that the sum of the theoretical probabilities for two dice equals I, because it is 100 percent certain to obtain a sum between 2 and 12. The sum of the probabilities corresponding to the outcomes 3, 4, and 5 is 2/36 +3/36 +4/36 1/4. This result corresponds to a probability of 25 percent. Thus if you roll two dice many times, 25 percent of the time you would expect to obtain a sum of either 3, 4, or 5.

Figure 7.1-7 Comparison of theory and experiment for 100 rolls of two dice.

In many applications the theoretical probabilities are not available because the underlying causes of the process are not understood well enough. In such applications you can use the histogram to make predictions. For example, if you did not have the theoretical probabilities for the sum of two dice, you could use the data to estimate the probability. Using the previously given data from 100 rolls, you can estimate the probability of obtaining a sum of either 3, 4, or 5 by summing the relative frequencies of these three outcomes. This sum is (5 +8 + 11)/100 = 0.24, or 24 percent. Thus on the basis of the data from 100 rolls, 24 percent of the time you can estimate that you would obtain a sum of either 3,4, or 5. The accuracy of the estimates so obtained is highly dependent on the number of trials used to collect the data the more trials, the better. Many sophisticated statistical methods are available to assess the accuracy of such predictions these methods are covered in advanced courses.

Test Your Understanding
17 .1-2 If you roll a pair of balanced dice 200 times, how many times would you expect to obtain a sum of 7? How many times would you expect to obtain a sum of either 9, 10, or II? How many times would you expect to obtain a sum less than 7? (Answer: 33 times, 50 times, and 83 times.)


Question 16.

Use the frequency histogram to answer each question.

  1. Determine the number of classes.
  2. Estimate the frequency of the class with the least frequency.
  3. Estimate the frequency of the class with the greatest frequency.
  4. Determine the class width.

Answer – a) Number of classes = 7

Leave a Reply Cancel reply

GeekyMynd.com is a learning website where students can learn topics related to Computer Science, Statistics, UPSC, SSC, and more free of cost.

Saites

NEWSLETTER

Get all the latest content delivered to your email a few times a month. Updates and news about all categories will send to you.


When you should use a histogram

Histograms are good for showing general distributional features of dataset variables. You can see roughly where the peaks of the distribution are, whether the distribution is skewed or symmetric, and if there are any outliers.

In order to use a histogram, we simply require a variable that takes continuous numeric values. This means that the differences between values are consistent regardless of their absolute values. For example, even if the score on a test might take only integer values between 0 and 100, a same-sized gap has the same meaning regardless of where we are on the scale: the difference between 60 and 65 is the same 5-point size as the difference between 90 to 95.

Information about the number of bins and their boundaries for tallying up the data points is not inherent to the data itself. Instead, setting up the bins is a separate decision that we have to make when constructing a histogram. The way that we specify the bins will have a major effect on how the histogram can be interpreted, as will be seen below.

When a value is on a bin boundary, it will consistently be assigned to the bin on its right or its left (or into the end bins if it is on the end points). Which side is chosen depends on the visualization tool some tools have the option to override their default preference. In this article, it will be assumed that values on a bin boundary will be assigned to the bin to the right.

Example of data structure

One way that visualization tools can work with data to be visualized as a histogram is from a summarized form like above. Here, the first column indicates the bin boundaries, and the second the number of observations in each bin. Alternatively, certain tools can just work with the original, unaggregated data column, then apply specified binning parameters to the data when the histogram is created.


Statistics Test 1

Step 4. Choose the interval that contains the score, 61.7.

Step 1. Determine the relative frequency for the fifth class as a simplified fraction.
Answer: ____________________

Step 1. Find the lowest state Electoral College vote total.
Answer: _______________

Step 2. Find the highest state electoral college vote total.

Step 1. Find the number of ham pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 2. Find the number of ground beef pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 3. Find the number of bell pepper pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Step 4. Find the number of onion pizzas sold each month. Round your answer to the nearest integer.
Answer: ____________________

Name Scoring
Eddie Jones 20.1
Mario Elie 7.5
Antonio Davis 11.5
Karl Malone 25.5
Juwan Howard 14.9

Step 1. Determine the missing value on the vertical axis represented by [?].

Step 2. Determine the missing value on the vertical axis represented by [?].

Step 3. Create the bar representing the data for Karl Malone.

Step 4. Create the bar representing the data for Juwan Howard.

Step 1. Find the lowest per game scoring average for the six seasons shown.
Answer: _______________

Step 1. Find the number of the class containing the smallest number of house prices (1, 2, 3, 4, 5, or 6).
Answer: ____________________

Step 2. Find the lower class limit of the fifth class.
Answer: ____________________

Step 3. Find the class width for this histogram.
Answer: ____________________

Step 4. Find the number of houses being represented in this histogram.
Answer: ____________________

Step 1. Find the lower class boundary for the second class.
Answer: ____________________

Step 2. Find the upper class boundary for the third class.
Answer: ____________________

Step 3. Find the value that should be written at the location indicated by the [?] on the vertical axis of the graph.

Step 4. Find the value that should be written at the location indicated by the [?] on the horizontal axis of the graph.

Step 1. Determine the mean of the given data.
Answer: ____________________

Step 2. Determine the median of the given data.
Answer: ____________________

Body Temperatures (in ºF) of Adult Males
98.2 97.6 96.5 96.6 97.8
98.7 98.3 99.3 98.2 98.0
96.4 98.5 98.9 99.1 97.2
97.3 99.0 96.6 98.5 96.5

A) False the standard deviation can never be zero because it measures the distance from the mean and distances are always greater than zero.

B) True since the standard deviation is equal to the mean, all the data values must be zero.

C) False if the standard deviation is zero, then all of the data values are equal to the mean.

Based on the data and assuming these trends continue, which company would give Donna a stable long-term investment?

A) Perfect Plungers Plus the smaller standard deviation indicates that Perfect Plungers Plus has a greater mean closing price than Masterful Pocketwatches.

B) Masterful Pocketwatches the larger standard deviation indicates that Masterful Pocketwatches has less variability in its closing prices than Perfect Plungers Plus.

C) Perfect Plungers Plus the smaller standard deviation indicates that Perfect Plungers Plus has less variability in its closing prices than Masterful Pocketwatches.

Step 1. For each of the above sets of sample data, calculate the coefficient of variation, CV. Round to one decimal place.

CV for Data Set A: _______________%
CV for Data Set B: _______________%

Step 2. Which of the above sets of sample data has the larger spread?

Step 1. Based on the given information, determine if the following statement is true or false.
Approximately 64% of the salaries are above $29,700.

Step 2. Based on the given information, determine if the following statement is true or false.
Joe's salary of $34,430 is 1.10 standard deviations above the mean.

Step 3. Based on the given information, determine if the following statement is true or false.
The percentile rank of $25,800 is 50.

Step 4. Based on the given information, determine if the following statement is true or false.
Approximately 14% of the salaries are between $25,700 and $29,700.


Concept Review

A histogramma is a graphic version of a frequency distribution. The graph consists of bars of equal width drawn adjacent to each other. The horizontal scale represents classes of quantitative data values and the vertical scale represents frequencies. The heights of the bars correspond to frequency values. Histograms are typically used for large, continuous, quantitative data sets. A frequency polygon can also be used when graphing large data sets with data points that repeat. The data usually goes on y-axis with the frequency being graphed on the x- ass. Time series graphs can be helpful when looking at large amounts of data for one variable over a period of time.


Skatīties video: Diagramma tuzish (Novembris 2021).