200% schnellere Datenverarbeitung durch Hive-on-Spark und Cloudera Enterprise v5.7

Die neue Version 5.7 von Cloudera Enterprise verbessert die Performance und bietet Sichtbarkeit von Workloads im Multi-Tenant-Einsatz
Cloudera hat die allgemeine Verfügbarkeit von Cloudera Enterprise 5.7 bekannt gegeben. Die neueste Version sorgt bei allen wichtigen Workloads für noch bessere Leistungen: Mit zusätzlicher Unterstützung von Hive-on-Spark wird in der Datenverarbeitung eine durchschnittlich dreifache Verbesserung erreicht, die Leistung von Business Intelligence-Analysen wird mit Updates zu Apache Impala (Inkubation) im Schnitt verdoppelt. Darüber hinaus sorgt die jüngste Veröffentlichung im Multi-Tenant-Einsatz für Sichtbarkeit der entsprechenden Workloads, um eine effiziente Steuerung sowie eine optimale Ressourcennutzung zu gewährleisten.

„Hadoop hat sich während der vergangenen zehn Jahre deutlich weiterentwickelt, und mit jedem Fortschritt erkennen wir das Potenzial für weitere Einsatzgebiete sowie neue Anwendungsfälle – während das bisher Erreichte kontinuierlich verbessert wird“, sagt Charles Zedlewski, Vice President für Produkte bei Cloudera. „Die Weiterentwicklung der Datentechnik und die ETL-Entwicklung mit Hive-on-Spark stellen im Rahmen dieser Entwicklung einen entscheidenden Meilenstein dar, denn dadurch wird der Status von Spark als Standard-Datenverarbeitungsmaschine innerhalb von Hadoop weiter gefestigt.“

ETL-Entwicklung und Stapelverarbeitung beschreiben unverändert die häufigsten Anwendungsfälle für Hadoop. Für solche Workloads spielt Apache Hive seit langem eine wichtige Rolle, wenngleich bisher noch MapReduce als Ausführungsmaschine traditionell genutzt wird. Apache Spark spielt aufgrund seiner einfacheren Entwicklung und schnelleren Performance im Vergleich zu MapReduce aber eine zunehmend wichtigere Rolle und ist auf dem besten Wege MapReduce für diese Workloads zu ersetzen. Für einen vollständigen Übergang von MapReduce auf Spark startete Cloudera im vergangenen Jahr die One Platform Initiative, welche die Entwicklung auch hin zu einer noch besseren Integration von Spark und Hadoop führt. Mit der Veröffentlichung von Hive-on-Spark innerhalb von Cloudera 5.7 rückt Spark einen Schritt näher an dieses Ziel, da Entwickler nun die leistungsfähigen Spark-Funktionalitäten zur Datenverarbeitung nutzen können, während sie wie gewohnt weiterhin Hive einsetzen – aber im Ergebnis eine dreimal höhere Performance erzielen.

Ein entscheidender Vorteil von Hadoop ist, dass innerhalb eines einzigen Clusters mehrere Anwendungsfälle über die gleichen, gemeinsam genutzten Daten hinweg unterstützt werden können. Mit Cloudera Enterprise sind Administratoren in der Lage, Nutzer und Anwendungsfälle auf einfache Weise mit den passenden Ressourcen auszustatten, um wichtige Service Level Agreements (SLAs) erfüllen zu können. Mit dieser jüngsten Version erhalten Administratoren vollen Einblick in zurückliegende Nutzungen und Leistungsdaten – über alle Nutzer, Mandanten und Anwendungen hinweg.

Zu den weiteren Funktionen von Cloudera 5.7 zählen:

Zweifache Leistungsverbesserung der BI-Analytik: Impala behält weiterhin seine führende Position als schnellste analytische SQL-Engine für Hadoop – mit dynamischer Partitionsteilung, schnellerem Abfragestart, Laufzeit-Filtern und vielem mehr.

Einfacherer Weg zur Produktion: Der Cloudera Manager enthält Cluster-Vorlagen, die einen einfachen Arbeitsablauf zur Replikation und Übertragung von Konfigurationseinstellungen auf neue Cluster bieten. Auf diese Weise ist es leicht möglich sich, aus einer gut abgestimmten Testumgebung heraus, in die Produktion zu begeben und den Einsatz weiter auszudehnen, oder auch schnell zu einer funktionierenden Konfiguration zurückzukehren, falls irgendwelche Probleme auftreten.

Optimierte Datenkontrolle: Cloudera Navigator eröffnet Data Management jetzt auch den Business Usern, mit vereinfachter Lineage, was widerum Vertrauen und Klarheit über die Herkunft der Informationen schafft. Außerdem werden verwaltete Metadaten hinzugefügt, die über Systeme hinweg eine verbesserte Auffindbarkeit und Konsistenz gewährleisten.

Cloudera 5.7 ist ab sofort verfügbar unter: www.cloudera.com/downloads

Quelle:
http://www.cloudera.com/