Hallo, Gast!

- Anmelden
- Registrieren

Neuigkeiten!
Willkommen zum ersten deutschspachigen Forum rund um die Open Source Softwarelösungen der Firma Talend. Dieses Forum ist fü alle Anwender die Fragen und/oder Antworten zum Thema Talend haben oder suchen.


Antwort schreiben 
 
Themabewertung:
  • 0 Bewertungen - 0 im Durchschnitt
  • 1
  • 2
  • 3
  • 4
  • 5
Fehlerhafte Datensätze aus einer CSV Datei filtern.
28.06.2011, 19:57
Beitrag: #1
Fehlerhafte Datensätze aus einer CSV Datei filtern.
Hi @ all

Ich habe eine csv Datei die als Trennzeichen das Semikolon hat.

Innerhalb dieser Datei gibt es Felder in denen frei Text eingegeben werden kann.

Nun kommt es gelegentlich vor, dass jemand bei der freien Texteingabe ein Semikolon verwendet, was dann die Datenstruktur für das nachfolgende Programm durcheinander würfelt.

Gibt es mit Talend eine einfache Möglichkeit diese Datensätze herauszufiltern, damit nur die mit der korrekten Satzstruktur weiterverarbeitet werden können ?

Ich bin für jede Hilfe dankbar.
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitieren
29.06.2011, 17:06
Beitrag: #2
Smile RE: Fehlerhafte Datensätze aus einer CSV Datei filtern.
Hi,

ich habe es selbst hinbekommen.
Mit tSchemaComplianceCheck war es ganz einfach.

closed
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitieren
29.06.2011, 17:23 (Dieser Beitrag wurde zuletzt bearbeitet: 29.06.2011 17:23 von wg1.)
Beitrag: #3
RE: Fehlerhafte Datensätze aus einer CSV Datei filtern.
Hi Giant,

eine andere Möglichkeit wäre mittels einem tFileInputFullRow die Daten
Satz für Satz zu lesen und in einem Mapper dann mittels der Funktion
StringHandling.COUNT(<STRUCT>.line,";") die Anzahl der ";" zu ermitteln.
Die Anzahl könnte dann als Filterbedingung dienen.
   

wg
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitieren
01.07.2011, 13:31 (Dieser Beitrag wurde zuletzt bearbeitet: 04.07.2011 23:11 von Giant0040.)
Beitrag: #4
RE: Fehlerhafte Datensätze aus einer CSV Datei filtern.
Hi wg1,

das ist auch eine gute Idee.

Ich probier mal aus welche Lösung performanter ist.

thx.

Also bei ca. 30 Mio Datensätzen braucht die Lösung:
tSchemaComplianceCheck ca. 25 Min
StringHandling.COUNT ca. 10 Min
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitieren
Antwort schreiben 


Gehe zu: