Re: velká data
Jan Houska
Houska at humusoft.cz
Tue Apr 12 21:29:19 CEST 2016
Dobrý den,
formát ASCII je pro ukládání velkých dat jeden z těch méně vhodných. Textová
reprezentace čísel zabírá mnohem více místa než binární, a navíc jsou ve
výchozím nastavení data ukládána v jednoduché přesnosti, takže dochází i ke
ztrátě přesnosti. Když nastavíme ukládání ve dvojité přesnosti, velikost
souboru ještě dále podstatně naroste.
Takže nemáte-li opravdu pádný důvod k ukládání v ASCII tvaru, zvolil bych buď
standardní binární formát anebo formát HDF (volba -v7.3). A dokonce i
kdybyste pádný důvod měli, bude asi lepší ukládat data dvakrát, jednou jako
ASCII (pro použití jinde) a jednou binárně (pro použití v MATLABu), a vyhnout
se tak zbytečným konverzím při čtení dat zpět do MATLABu.
Jinak, Vámi popsaný příklad jsem zkusil s náhodně vygenerovanou maticí daného
rozměru, proběhl bez problémů a během několika sekund. Záleží tedy asi také
např. na tom, na jaké médium zapisujeme, kolik je k dispozici operační
paměti, apod.
Zdraví Jan Houška
> Dobrý den,
>
> ve fyzikální laboratoři zpracováváme poměrně velké objemy dat. Ve
> scriptu MATLAB načítáme běžně 15-20 tisíc souborů s mnoha stovkami
> vzorků. Výsledkem je velká matice prostých číselných dat, např.
> rozměru 100x19000. Matici ukládáme příkazem SAVE v režimu ASCII a
> i když to trvá někdy až 2 minuty, soubor se uloží. Problémem je
> jeho opětovné načtení, při kterém MATLAB zamrzne a často způsobí
> problém i Windows 7 Enterprise (používáme MATLAB R2016a 64bit).
> Zkusili jsme načítání ruční i pomocí systému "Import Data".
> Máte-li někdo zkušenosti s takto velkými daty, předem díky za
> tipy.
>
> S pozdravem
>
> prof. Ing. Karel Zaplatílek, Ph.D.
>
> Katedra elektrotechniky
> Fakulta vojenských technologií
> Univerzita obrany
>
> Kounicova 65 / 662 10 Brno
> telefon: 973 442709 / fax: 973 443773
> karel.zaplatilek at unob.cz
> www.unob.cz
>
> [FVT + UO_CJ]
>
>
--
Jan Houska HUMUSOFT s.r.o.
houska at humusoft.com Pobrezni 20
http://www.humusoft.com 186 00 Praha 8
tel: ++ 420 284 011 730 Czech Republic
fax: ++ 420 284 011 740
More information about the CsMUG
mailing list