Re: velká data

Jan Houska Houska at humusoft.cz
Tue Apr 12 21:29:19 CEST 2016


Dobrý den,

formát ASCII je pro ukládání velkých dat jeden z těch méně vhodných. Textová 
reprezentace čísel zabírá mnohem více místa než binární, a navíc jsou ve 
výchozím nastavení data ukládána v jednoduché přesnosti, takže dochází i ke 
ztrátě přesnosti. Když nastavíme ukládání ve dvojité přesnosti, velikost 
souboru ještě dále podstatně naroste.

Takže nemáte-li opravdu pádný důvod k ukládání v ASCII tvaru, zvolil bych buď 
standardní binární formát anebo formát HDF (volba -v7.3). A dokonce i 
kdybyste pádný důvod měli, bude asi lepší ukládat data dvakrát, jednou jako 
ASCII (pro použití jinde) a jednou binárně (pro použití v MATLABu), a vyhnout 
se tak zbytečným konverzím při čtení dat zpět do MATLABu.

Jinak, Vámi popsaný příklad jsem zkusil s náhodně vygenerovanou maticí daného 
rozměru, proběhl bez problémů a během několika sekund. Záleží tedy asi také 
např. na tom, na jaké médium zapisujeme, kolik je k dispozici operační 
paměti, apod.

Zdraví Jan Houška


> Dobrý den,
> 
>             ve fyzikální laboratoři zpracováváme poměrně velké objemy dat. Ve
>             scriptu MATLAB načítáme běžně 15-20 tisíc souborů s mnoha stovkami
>             vzorků. Výsledkem je velká matice prostých číselných dat, např.
>             rozměru 100x19000. Matici ukládáme příkazem SAVE v režimu ASCII a
>             i když to trvá někdy až 2 minuty, soubor se uloží. Problémem je
>             jeho opětovné načtení, při kterém MATLAB zamrzne a často způsobí
>             problém i Windows 7 Enterprise (používáme MATLAB R2016a 64bit).
>             Zkusili jsme načítání ruční i pomocí systému "Import Data".
>             Máte-li někdo zkušenosti s takto velkými daty, předem díky za
>             tipy.
> 
> S pozdravem
> 
> prof. Ing. Karel Zaplatílek, Ph.D.
> 
> Katedra elektrotechniky
> Fakulta vojenských technologií
> Univerzita obrany
> 
> Kounicova 65 / 662 10 Brno
> telefon: 973 442709 / fax: 973 443773
> karel.zaplatilek at unob.cz
> www.unob.cz
> 
> [FVT + UO_CJ]
> 
> 


--
Jan Houska                                           HUMUSOFT s.r.o.
houska at humusoft.com                                  Pobrezni 20
http://www.humusoft.com                              186 00 Praha 8
tel: ++ 420 284 011 730                              Czech Republic
fax: ++ 420 284 011 740




More information about the CsMUG mailing list